基于本体的自然语言检索研究

时间：2011-04-23 作者：秩名

论文导读：而自然语言检索具有方便、快捷、易于操作的特点，成为信息检索领域一大发展趋势。从2001年开始，一些专家、学者开始把本体理论应用到自然语言检索领域。目前关于本体构建的方法还没有一个明确而标准的体系构建方法[5]。
关键词：自然语言检索，本体，本体构建

随着计算机、网络与信息技术的迅猛发展，信息的产生、发布速度日新月异，使得现在的Internet和Web上具有海量的信息资源。而随着计算机和网络的普及，人们的信息意识也在不断增强。各行各业的人们都深刻意识到信息的重要性，对信息的需求也越来越迫切，信息用户群从原来的只有少数专业人员范围发展到了全民范围。面对庞大的网络信息资源如何进行有效地组织，并提供快捷、方便的检索服务，已经成为信息检索领域亟待解决的问题。常规的全文检索方式虽然可以保证查全率，但是查准率却大大降低，而基于数据库的检索方法，其性能取决于所使用的字段标识方法和用户对方法的理解，对于大多数没有经过检索培训的用户来讲，操作起来费时费力，具有很大的局限性，也不能满足用户在语义上和知识上的需求。而自然语言检索具有方便、快捷、易于操作的特点，成为信息检索领域一大发展趋势。现在自然语言检索系统可望扫除人与计算机系统的接口障碍，只是对自然语言如何进行分解取得准确的语义问题还有待更深入地研究[1]。从2001年开始，一些专家、学者开始把本体理论应用到自然语言检索领域。本体具有能通过概念之间的关系来表达概念语义的能力，因而在信息检索，特别是在基于知识的检索中支持知识上、语义上的匹配，对检索系统的查全率与查准率有更好的保障。本体的最大优势还在于本体将某个或多个特定领域的概念和术语规范化，提供了人机交流的机制，使得机器可以理解语义，达成机器与机器之间、机器与人之间的语义互操作。要实现对Web上的知识信息的重用与共享，充分挖掘语义Web的潜力，就需要大规模采用基于本体的方法来组织信息资源。本文首先介绍了自然语言检索的优缺点及本体的概念，然后论述了自然语言检索与本体论结合的优势，最后提出了开发本体的方法。

1 自然语言检索的优缺点

1.1 自然语言检索的优点

使用自然语言检索不受繁琐的检索规则限制，检索标识从源文的题名、文摘和正文中提取，符合大多数用户的检索习惯，用户使用自然语言描述他们的信息需求，用能准确反映自己意图的词语作为检索标识[2]。自然语言检索的优点可归纳为三个方面：

(1) 自然语言检索不受词表限制，可以输入新生词汇，更有效地跟踪新事物的发展。

(2) 自然语言检索以源文的内容作为检索标识，符合大多数用户的检索习惯，不受专业及使用检索系统能力的限制，能更快、更准确地命中检索目标。

(3) 自然语言检索采用从文献中抽取标引词的方式，既加快了标引速度，又减少了文献内容的失真度，可以实现各数据库的标引和检索成果共享。

1.2 自然语言检索的缺点

自然语言检索在情报检索语言中毋庸置疑是最为方便的一种检索语言，但是它还是存在很多问题，正是这些问题的存在使它不能完全取代情报检索语言。自然语言检索的缺点可归纳为两个方面：

(1) 自然语言检索在选词上没有经过严格筛选，词汇繁杂。对同义词、近义词、多义词、相关词没有进行规范和统一，词间缺乏有机联系，从而影响查全率和查准率。

(2) 自然语言检索本身具有模糊性、随意性，在机检过程中会占用大量存贮空间，影响查询匹配的速度。

要获得满意的检索效果，必须对自然语言检索做进一步的处理，也就是进行概念控制。由于本体可以通过对概念、术语及其相互关系的规范化描述,刻画出某一领域的基本知识体系和描述语言，将检索过程由传统的关键词的匹配转化为语义上的匹配，本体的引入无疑给自然语言检索技术的发展带来了新的契机。

2 本体的定义

本体(Ontology)最早是一个哲学的概念，原意指的是“客观存在的一个系统的解释和说明，客观现实的一个抽象本质”。本体在计算机领域的定义经历了一个漫长的演化过程[3]。在人工智能界，最早给出本体定义的是Neches等人，他们将本体定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993年，Gruber给出了本体的一个最为流行的定义，即“本体是概念模型的明确的规范说明”。后来，Borst在此基础上，给出了本体的另外一种定义：“本体是共享概念模型的形式化规范说明”。Studer等人在对本体做了深入研究后，扩展了Gruber的定义，认为“本体是共享概念模型的明确的形式化规范说明”。这一定义已被大多数人认同，该定义包含了四层含义：

1) 概念模型(Conceptualization)，即本体是通过抽象客观世界的概念而得到的模型，该模式定义了概念间的相关关系；

2) 明确性(Explicit)，即本体所使用的概念及这些概念的上位类之间都应该有明确的定义和说明，没有二义性；

3) 形式化(Formal)，即本体是计算机可处理的，而不是自然语言；

4) 共享(Shared)，即本体体现的是共同认可的知识，反映的是相关领域中公认的概念集合，应该被整个领域的群体所接受。

本体的目标是捕获相关的领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义，利用本体概念化、形式化、明确性、共享性的特性来提高信息检索的准确性与覆盖率，从而将Web上的所有信息，连结成一个巨大的数据库。

1/2 1 2 下一页尾页

查看相关论文专题：

	加入收藏打印本文
上一篇论文：基于XML描述的WEB信息抽取技术研究(图文)
下一篇论文：基于布朗模型和小波变换的镀锌钢板表面缺陷分形特征的研究

科技论文分类

相关计算机论文

最新计算机论文

读者推荐的计算机论文