3 自然语言检索与本体结合的优势
本体是关于领域知识的概念化、形式化的明确规范,是对领域知识的共同理解与描述,它和情报检索语言一样由概念及其之间的相互关系构成,所不同的是构成本体的概念更加系统、全面地揭示概念之间的相互关系,具有更强的表达能力。因而本体更适用于网络环境下的信息资源组织与检索。其优势主要体现在:
(1) 本体同样也具有标引功能、信息组织功能、对信息进行集中并显示其相关性的功能,本体可以替代情报检索语言对自然语言加以更好的控制。
(2) 本体比传统的情报检索语言更加深入、全面、细致地反映了概念之间的关系,同时在组织结构上,本体中的概念构成了一个语义网络,提供了一个共享的词汇库,以达到人机之间交流顺畅、且不会丢失曲解交流信息所包含的语义。
(3) 本体中的概念用自然语言或半自然语言表达,应用更广。本体的描述能力可以解决同名异义及异名同义,描述概念间的相互关系,显示描述概念的语义,支持相关信息源之间的信息交换,提高应用的互操作性,促进领域知识共享和重用,可以实现基于本体的语义检索或自然语言检索。
(4) 本体是一个开放的体系,其概念集可以随着学科领域的发展而进行动态更新,更适用于信息频繁更新与变化的网络环境。完善概念间的语义关系,扩展语义结构,运用本体语言对概念及其关系进行形式化的表达,以便于计算机可以在某个程度上理解人类的概念与术语。
4本体的构建方法
本体的构建是整个基于本体的自然语言检索系统的基础,决定着自然语言检索系统的性能、通用程度以及系统运行的质量。本体描述了类、关系、函数、属性和实例之间的语义关系,如何正确、有效、合理的建立本体是这个系统建立的关键。
4.1 本体构建准则
对同一领域,同一事物,不同人往往会建立不同的本体[4]。论文格式。由于本体应该是规范化的描述,因此遵循统一的构造准则是必要的。目前最为常用的是Gruber在1995年提出的5条规则:
1) 明确性和客观性:本体应该用自然语言对所定义的术语给出明确、客观的语义定义,定义应该是形式化的并尽可能完整。
2) 完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。
3) 一致性:本体应该是一致的,也就是说,它应该支持与其定义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。
4) 可扩展性:本体应该为可预料到的任务提供概念基础。它应该可以支持在已有的概念基础上定义新的术语,以满足特殊的需求,而无须修改已有的概念定义。
5) 最小承诺:对待建模对象给出尽可能少的约束,只要能够满足特定的知识共享需求即可。论文格式。
4.2 本体构建方法
目前关于本体构建的方法还没有一个明确而标准的体系构建方法[5]。国外常见的几种构建本体的方法有:IDEF5法、骨架法、TOVE法、METHONTOLOGY法、KACTUS法、SENSUS法、七步法。其中IDEF5法提供了一种结构化的方法,利用该方法,领域专家可以有效地开发和维护领域本体;骨架法只提供开发本体的指导方针;TOVE法的目标是建立一套为商业和公共企业建模的集成本体,目前利用TOVE法已经建成了相关本体;METHONTOLOGY法已经被马德里大学理工分校人工智能图书馆采用;KACTUS法用于技术系统生命周期的知识重用问题的本体开发,以便于在设计、诊断、操作、维护、再设计和培训时使用同一知识库;SENSUS法是关于用自然语言开发电子领域的本体构建方法,目前该方法所构建的本体用于军事领域;七步法目前主要用于医学领域的本体构建。
通过对上述本体构建方法的分析,我们可以看到,构建基于本体的信息检索系统需要遵循一系列相互关联的步骤和方法。论文格式。目前,对于自然语言检索与本体结合方面的探讨,还未见较为系统深入的研究报导,结合上述7种方法,本文提出以下4个关于建立一个应用于自然语言检索系统的本体的一般步骤以供参考。
1) 确定本体的领域与范围
在建立本体之初,首先要明确构建的本体将覆盖的专业领域,并搜集这一领域的概念。主要通过专家及文献的调研来实现[6]。首先是由相关的领域专家给出抽象的本体结构定义;其次通过领域内的各种文本语料搜集目标文本,如各种标准、法规、辞书、教科书、科技论文、目录等;再次利用共享领域的知识来源如:术语数据库、术语汇编、叙词表、辞典、百科全书等。再由领域专家所提供的计算机专业人士通过相关的技术手段转换成为计算机能够理解的数据形式。
2) 确定本体的主体概念和概念间的关系
确定本体的主体概念可以在最低限度上保证概念体系建立的质量,它可以避免主要概念的遗漏,还可以揭示概念分析的重点。获取本体主体概念的方法我们可以参照叙词表,选出准确而精简的表达出领域知识的关键性概念,将它作为主体概念的主干,摒弃那些不必要或者超出领域范围的概念,由上到下将概念细化。然后再进一步识别确认,对不足部分进行添加和修改。从而形成一个领域知识的主体概念框架结构。主体概念确定后,就要确定概念间的关系。各个概念之间存在着各种不同的关系,如属种、交叉、同一、并列、发展、推理、因果、联想关系等等,正是这些关系的存在才能把某一领域内的全部概念连成一个概念体系。因此,正确判断概念间的关系是构建合理的概念体系的前提。
3) 建立本体
根据上文所述,在确定了本体范围和主体概念并确定了概念关系以后我们就可以建立本体了。首先要根据实际情况设计一些指导方针;其次,利用类、关系、函数、属性、实例等本体要素组织和表示领域概念,其详细程度以满足本体的应用目的为宜;最后选择合适的本体工具和本体语言,对上述建立的本体进行编码,使其形式化,生成领域本体。
4) 检查和评估本体
通过领域专家对本体进行最终的验证,包括检查概念、属性及概念之间在句法上、逻辑上和语义上的一致性,对本体、本体相关的软件环境和文档做技术性的评判。
5 结束语
本体的构建是一个漫长的过程,采用自然语言检索与本体结合的方法仅仅是刚刚起步。自然语言检索已经成为网络信息检索的主流技术,现在越来越多的搜索引擎支持自然语言检索。实现自然语言检索一直是图书馆人的一个理想,自然语言的核心问题在于机器对自然语言的理解,本体是自然语言处理的基础,开发利用好本体将有助于自然语言检索更好地实现。
参考文献
[1] 宋炜,张铭. 语义网简明教程. 北京:高等教育出版社,2004
[2] 耿骞,赖茂生. 自然语言检索的实现及其关键问题. 情报科学,2007(5):733-741
[3] http://www.blogjava.net/hjh132/archive/2008/04/16/193586.html
[4] 刘春,黄定光. 本体初探. 现代情报, 2008(1):38-39
[5] 杜文华. 本体构建方法比较研究 情报杂志, 2005(10):24-25
[6] 罗昊,夏英华. 论本体语言创制中的领域知识分析. 图书馆学研究,2008(10):60-63
2/2 首页 上一页 1 2 |