欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

中文期刊全文数据库系统设计

时间:2011-04-24  作者:秩名

论文导读:引言在追求快速、方便的网络时代,只提供题录、文摘数据库已不能满足读者的要求,全文数据库的建设是今后发展的方向。中文与西方国家的语言不同,由大量独立汉字组成,因此在建设中文全文数据库时要注意数据库系统、编码与开发工具的选择。2数据库系统、开发工具及中文编码的选择2.1数据库系统的选择理论上现在成熟的大型关系数据库软件均可作为中文期刊全文数据库系统,但从市场占有程度及成本和易用性考虑,用来存储中文期刊全文的数据库系统建议从以下几种平台中进行选择。
关键词:中文期刊,全文数据库,数据库系统
 

引言在追求快速、方便的网络时代,只提供题录、文摘数据库已不能满足读者的要求,全文数据库的建设是今后发展的方向。许多文献数据库都是通过网络发布和提供检索的,面对的是没有检索经验的用户和巨大的文献处理的难题,如何建立一个有价值的、用户满意的、实用的全文数据库就成为广大图书情报人员深入研究的课题。

全文数据库除提供一般题录数据库的题名、分类等检索途径外,还提供全文检索。全文检索是利用了文献中的自然语言作为一个检索入口,这种自然语言的检索方式比较符合用户的易于利用的需求。

中文与西方国家的语言不同,由大量独立汉字组成,因此在建设中文全文数据库时要注意数据库系统、编码与开发工具的选择。

1 全文数据库系统软件基本模块的设计构想由于全文数据库是非结构化的数据,因此全文数据库的结构(记录、字段、子字段等)的划分及长度的确定,往往随文献本身的内容特点而彼此有很大的差异。与之相对应,全文数据库系统的软件及其功能模块也会有很大的不同。作为功能完备的全文数据库系统,应该具有以下的结构特点及全部或大部分功能模块。

1.1 数据库结构定义模块这一模块主要是确定库的记录、字段(包括重复字段或子字段),确定相应记录或字段的索引方式。字段设计之目的在于:增加正文之外的信息项,增加检索的切入点;提高检索的查准性,借以进行字段限定检索,并提高检索速度;索引方式的确定,以字段为单位。索引方式有四种:全字段作为一个完整单位作索引;以< >标引符号内字符串作索引;以%分割的重复字段作索引;每个字作索引(单字索引,主要用于正文字段)。在一条记录中,字段的个数应不限,一般最多能达到数百个字段。

1.2 数据预处理模块由于全文数据库的数据基本上来源于外部数据,对不同格式的数据处理采用不同的方法。

电子排版文本。这种文本中含有排版符号。如果全文数据库建立在这种排版软件基础上,则文本无需加工。但多数全文数据库系统并非建立在这种排版文本基础上的,因此有必要通过软件一次全部删除排版符号,同时应解决由于删除排版符号而带来的问题,如补字、数学公式、上下标等等,使之成为完整的纯文本文件。

网上下载的PDF文件、网页文件、光盘上记录的某些特殊格式的数据。如果全文系统采用纯文本格式,则需对其转换。

以上这些文件的转换,需要编制工具软件,或利用已有的转换工具。

文本预处理还包括数据的批式标引。这是建立全文数据库之前特别是数据装载之前,主要是利用文字处理软件和专门自动标引软件对数据进行的标引,或按自己建立的标引词表,对文本进行的扫描标引。

1.3 装库模块装库就是将数据预处理后的文本数据导入已有的库结构之中。

有的全文库要求将数据转换成ISO2709(CNMARC)格式才能装库;有时可将有一定标志的文本格式装库;有的则将文本按原格式导入库结构;有的不实际装库,只在系统中建立指向文本文件地址的指针。可以根据具体情况选择装库方式,但最后一种方法不推荐使用。

1.4 标引模块全文库正文的单字索引,不必建立,因为系统有识别每个汉字和其他符号或外文字串索引功能。

在以单字为基础的索引中,以布尔逻辑为手段进行检索,误检率极高,需以位置检索手段进行检索,用以提高查准率。以单字为基础的索引的优点在于不需要人工标引,可实现索引的自动化,从而大大提高了建库的效率。但单字索引也存在明显的缺点,即同义词、相关词无法控制,解决办法可以通过在检索匹配模块设置后控词表进行后控检索。

1.5 索引作业模块索引作业就是按照库结构定义中的索引字段生成索引的过程,一般生成一个索引即可。为了区别不同字段的索引款目,可以在索引定义中加文字常量。这样在混排索引中就可以把不同属性的索引款目相对集中,在检索时,可以进行按字顺显示。如要检索作者为“高山”的著作,应这样输入检索式:“AU = 高山”,从而可以避免检出作为关键词的“高山”及正文中的“高山”。全文索引的主体应该是正文的单字索引,借助这种索引可以使全文中的任何信息、中心主题信息与边缘性信息都能被检索出来,避免标引中的遗漏和主观武断,从而实现检索的彻底性。

1.6用户输入检索式模块这一模块是全文数据库系统与用户之间最直接的接口,也是决定检索结果好坏的关键。全文数据库的使用者往往缺乏系统检索经验,要查到一些信息容易,但查全、查准信息较难。全文库检索主要是使用自然语言,缺乏词汇的控制,因此随意性较大,检索效果的评价也缺乏明显的验证标准。要引导用户正确提出检索式,一般来说有三种基本的引导用户的模式:

询问表方式。即在用户检索时,系统提出一个询问表格,检索项目由用户填写。这些项目如:欲检索的篇名、作者姓名、关键词、分类号、单字等等。不必要求用户每项都填,即使只填一、二项也可。询问表方式引导用户表达自己信息需求的方式,对无检索经验者较为有用。

词典式检索。此方法适用于一般用户。按词典检索时,应能允许用户从显示词表中用光标选词,并且可选一个以上的词,被选中的词以“或”方式连结。如果读者要用“与”“非”方式,应能从表下所附的AND、NOT中点出这些运算符,使之形成检索式。总的来说,其目标应该是减少用户自己输入汉字和运算符,以提高效率并减轻其负担。

命令方式。这是供有一定检索经验的用户使用的,功能最为强大。命令方式主要是布尔运算、位置运算、括号嵌套、截断符号、字段限定等。

1.7 用户检索分析处理模块系统对来自屏幕的用户检索式加以处理,使之形成便于运算的检索方式。论文参考。对于复杂的检索式,需要进行逆波兰变换,确定各检索项的运算次序。对询问表的检索式也需根据用户所填数据形成检索式。对标引词表显示中用户光标指定词加以收集,并形成检索式。

在这一模块中,系统还应该检查用户提问检索式是否有错误(如左右括号不配对,数个运算符连用,字段文字常量输错等),如发现错误,应向用户做出提示,并给出修改建议。

1.8 检索匹配模块这一模块与一般检索系统相同,但作为全文数据库来说还应具备下列功能:

较强的位置检索功能。由于全文库往往对正文字段单字索引,因此对单字的布尔检索不大适用,而应以位置检索为主。位置检索时,应对紧密相邻的几个字采用连写方法,不必插入位置运算符。或者说,字与字之间默认的运算符是彼此紧密相邻。

全文库或指定集合中的顺序扫描匹配检索。当对正文作单字索引的情况下,允许用户使用这种扫描匹配进行检索。用户只需输出一个字符串(词或短语),计算机就开始对全库或指定集合进行检索匹配。

1.9 检索结果的处理模块检索结果的处理主要包括:显示浏览有关记录(段或句子)文本。排序:可由用户指定排序键。排序键可以是年代、字顺或命中频率。排列次序可以是升或降序。聚类:在有属性标引的全文库中可进行聚类。打印:可将命中结果打印输出。下载:可以提供文本格式或机内数据格式两种下载方式。

2 数据库系统、开发工具及中文编码的选择2.1 数据库系统的选择理论上现在成熟的大型关系数据库软件均可作为中文期刊全文数据库系统,但从市场占有程度及成本和易用性考虑,用来存储中文期刊全文的数据库系统建议从以下几种平台中进行选择。如果服务器端操作系统为Unix或Linux,并且经费预算允许,建议选择Oracle作为数据库系统。Oracle数据库是一种具有无限可伸缩性与高可用性,并可在集群环境中运行商业软件的互联网数据库,具有400多个领先的数据库功能,在集群技术、高可用性、商业智能、安全性、系统管理等方面都实现了新的突破。如果从降低成本考虑,可以选择MySQL作为数据库系统。以上两种数据库还提供支持Windows操作系统的版本,具有跨平台能力。

如果服务器端操作系统为Windows,则建议选择SQL Server作为数据库系统。SQL Server是一个全面的数据库系统,使用集成的商业智能(BI)工具提供了企业级的数据管理。SQL Server数据库引擎为关系型数据和结构化数据提供了更安全可靠的存储功能,可以构建和管理用于业务的高可用和高性能的数据应用程序。

2.2 开发工具的选择如果系统需要跨平台部署,在选择Oracle或MySQL数据库系统的基础上,建议选择Java为开发工具。Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中立的,可移植的,性能优异、多线程的动态语言。如果对跨平台没有要求,并选择SQL Server数据库系统,则建议选择Visual Studio为开发工具。Visual Studio 是微软公司推出的开发环境。是目前最流行的 Windows 平台应用程序开发环境。目前已经开发到 9.0 版本,也就是 Visual Studio 2008。Visual Studio 可以用来创建 Windows 平台下的 Windows 应用程序和网络应用程序,也可以用来创建网络服务、智能设备应用程序和Office 插件。

2.3 中文编码的选择中文编码主要有以下四种:

GB2312:简体中文编码,一个汉字占用2字节,在大陆是主要编码方式。当文章中包含繁体中文、日文、韩文等等时,这些内容可能无法被正确编码。

BIG5:繁体中文编码。主要在台湾地区采用。

GBK:支持简体及繁体中文,但对其它国家非拉丁字母语言还是有问题。论文参考。

UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。论文参考。这种方式的最大好处,是UTF-8保留了ASCII字符的编码作为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。

因此,为了保证全文数据的存储和显示不出现问题,建议选择UTF-8为数据库系统编码,应该在装库操作前对所有内容进行编码转换,统一转换成UTF-8编码。

结语全文数据库以其内容完整、直接提供一次文献等特点,越来越受到人们的关注。全文数据库给网络环境下的信息交流提供了更为方便快捷的途径。在全文检索技术日趋成熟的条件下,全文数据库在供读者利用方面表现出的优势是其它类型数据库所无法替代的。因此,对中文全文数据库的设计进行研究,是信息服务发展的必然要求。


参考文献[1]秦剑.我国数据库建设的思考与展望[J]河南图书馆学刊,2002,(04).
[2]程文艳.数字图书馆——数字中国的开路先锋[J]情报科学,2002,(06).
[3]杨丽兵.浅谈中文过刊编目数据库建设工作[J]农业图书情报学刊,2004,(01).
[4]何凯文.我国高校图书馆数字资源建设的问题及发展途径[J]图书馆建设,2004,(05).
[5]曾莉红.基于点击率的全文数据库检索结果组织方法探讨[J]情报杂志,2007,(06).
 

 

查看相关论文专题
加入收藏  打印本文
上一篇论文:运用CTI技术实现110“一打一送”通信接口
下一篇论文:中小企业综合管理信息化系统的设计与开发
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
最新计算机论文
读者推荐的计算机论文