欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

自然语言检索中的概念语义控制

时间:2011-04-23  作者:秩名

论文导读:自然语言检索技术。概念检索。其具体实现形式也就是语义检索。迫切需要有一种新的智能检索技术的出现。语义检索,自然语言检索中的概念语义控制。
关键词:自然语言检索,概念检索,语义检索,智能检索
 

1 引言

面对浩如烟海的网络信息资源,传统的基于字面匹配的关键词检索方式已经不能够很好地满足用户的需求。实践证明,由于关键词检索是一种以词汇控制为主流控制方式的主题检索方式,因此在实际的检索结果中包含了大量与检索主题无关的内容,同时也漏检了许多与检索主题相关的内容,降低了检准率和检全率。在这种情况下,迫切需要有一种新的智能检索技术的出现,能够从概念(知识)的层面上来处理用户的检索需求,而不仅仅局限于字面匹配上。在这里,重点阐述如何将信息检索从传统的基于关键词匹配层面提高到基于概念(知识)层面,实现自然语言检索中的概念语义控制。

2 自然语言检索技术

自然语言检索技术的发展依赖于自然语言处理技术的发展。前些年,由于自然语言处理技术的发展一直处于一个较慢的水平,因此自然语言检索技术的发展受到了很大制约,进展缓慢。近些年来,随着自然语言处理技术的不断前进,自然语言检索技术的发展也上了一个新的台阶。

自然语言检索技术的发展主要依靠的是对检索概念进行语义上的控制,即进行语义层次上的自然语言检索,其具体实现形式也就是语义检索。语义检索是一种理想的检索方式,它以自然语言作为提问输入,经过语义处理,又以自然语言的形式将检索结果返回给用户,能够更好地满足用户的需求[1]。

3 概念检索

传统的搜索引擎多采用全文检索技术,对于要检索的信息仅仅采用机械的关键词匹配技术来实现。搜索引擎无法处理在用户看来非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识。

在很多情况下,用户很难通过简单地使用关键词或关键词串来获取真正需要检索的内容。另外,对于相同概念的检索,不同的用户也可能使用不同的关键词作为检索提问。这两方面的原因使得返回的检索结果中包含了大量的不相关信息。例如,“计算机”和“电脑”通常被看作是同一类概念,但应用传统搜索引擎检索的结果却往往大不相同,当用“计算机”或“电脑”分别

作为检索词进行检索时,所得到的检索结果中只是包含“计算机”或“电脑”方面的内容,而不是二者的全部,这就大大降低了检索系统的检全率。

在这种情况下,用户迫切需要一种新的智能搜索引擎的出现,这种结合人工智能技术的智能搜索引擎能够把信息检索从目前的基于关键词层面提高到基于知识(概念)层面,能够从概念意义层次上来认识和处理检索用户的请求。

3.1 概念的涵义

概念是关于具有共同属性的一组对象、事件或符号的知识,是事物本质属性的概括。它可能是具体地,也可能是抽象地刻画、定义了一个对象类的特征,是通过字、词、词组等概念描述元素表达出来的。同一个概念可以用多个抽象元素来表达,这些描述元素在此概念的约束下构成了同义关系,它们在此意义上可以等同起来。

概念并不是孤立存在的,一个概念总是与其它概念之间存在着各种各样的关系。具体来说,概念之间可以划分为三种关系:等同关系(同一关系)、等级关系(上、下位类关系)和相关关系(交叉关系、并列关系、矛盾关系、对立关系)。根据概念之间的相互关系,在词的概念含义层次上建立联系,为检索用户提供有关的结果分析是概念检索的一个应用前景。

概念之间的关系可以通过概念语义网络表示出来,概念语义网络是一个带有标识的有向图,其中,节点表示概念,有向边表示概念之间的关系,如图1所示。

图中实心点表示主题词(概念节点),空心点表示非主题词。

概念具有层次结构,不同层次表明其抽象的程度不同,层次越高概括性越强,包括的下位概念可能越多。上位概念由一组下位概念组成,上位概念常常是下位概念的抽象、概括或整体表示;下位概念往往是上位概念的属性、特征或说明,是对上位概念的补充和细化,它描述自己独有的属性,同时继承上位概念的属性。

除了层次关系之外,概念之间又具有各种联系。为了表示概念之间的相互联系,在树形结构的基础上添加横向关系,把各个独立的概念联系起来,如“计算机”和“电脑”及“微电脑”为同义关系。这些横向关系所连接的概念节点可以是任意层次上的任意节点,从而构成一个概念语义网络[2]。

3.2 概念检索

“概念检索”这一术语频繁地出现于信息检索、人工智能等领域的有关文献中,但迄今为止一直没有看见明确严格的定义。

Excite(http://www.excite.com)是美国加州Redwood城的Excite公司推出的一款智能搜索引擎,它实现了基于用户个性化定制知识库的中文文本概念检索,在概念层次上对用户的检索进行反馈,从而提供基于内容的智能导航服务。Excite突破了传统的关键词层面检索的局限性,使信息检索更快、更准、更智能。在Exicite搜索引擎说明中对概念检索是这样定义的:概念检索是指在检索文件的过程中,不仅能够检索到含有用户提出的关键词的文件,还能检索到与用户的检索主题密切相关、但并没有包括这些主题词的文件。

通常认为概念检索可以有广义和狭义两种理解:广义上讲,只要不仅仅局限于单纯的字面匹配的检索,都可以称之为概念检索;而狭义上则专指语义检索(包括同义词、相关词等等)。本文中所研究的概念检索主要指的是狭义上的概念检索,也就是语义检索。语义检索又称概念匹配,即系统自动抽取文档的概念,加以标引;用户在系统的辅助下选择合适的词语表达自己的信息需求,然后在两者之间执行概念匹配——匹配在语义上相同、相近、相包含的词语,这样不仅仅能检索出包含这个具体词语的结果,还能检索出包含那些与该词语同属一类概念的词汇的结果。例如,输入“电脑”一词,系统会自动检索出包含“微电脑”、“计算机”、“电子计算机”等同义词的相关信息;输入“bicycle”可检索出包含“bike”和“cycle”等词的相关信息。可以认为,

概念检索是初级的语义检索,是语义检索的某种实现形式。

概念检索的一个基础功能是采用同义扩展检索。论文格式,语义检索。概念之间并不是孤立存在的,它总是与其他概念之间存在着各种各样联系。通常,用户不仅希望能够检索到相关文档,还希望检索系统能够帮助他产生新想法、建议新组合、发现已被遗忘的名称等等。因此,概念检索还必须能够实现语义蕴含扩展(如查询“动物”时,也能查询“猫”、“狗”)、语义外延扩展(如查询“操作系统”时,也能查询“计算机软件”、“应用软件”)、语义相关扩展(如查询“微软”时,也能查询“微软视窗”、“Windows NT”),目前国内外几乎没有一个检索系统能够达到这样的要求[3]。

3.3 概念检索的特点

概念检索通过对文献中的原文信息进行语义上的自然语言处理来析取各种信息,并由此形成一个知识库,然后根据对用户提问的理解来检索知识库中相关的信息以提供直接问答。

概念检索与人工智能领域中的自然语言处理在语义层次上的分析和理解有着密切的关系。传统的关键词检索只是为用户提供那些可能的相关文献,而这些文献是否真正相关,则需要在用户阅读以后才能确定。概念检索立足于语义层次上的分析和理解来处理文献原文与用户提问之间的相关性信息,将相关的信息从不同的文献原文中滤出并归纳成对用户提问的直接回答。传统检索提供的是知识文献内容的标识,而概念检索提供的则是文献内容的意义。

3.3.1 具有分析和理解自然语言的能力

对用自然语言形式输入系统的文献内容和提问,运用自然语言处理方法和技术进行语义层次上的分析和理解,获取表达文献内容的主题和用户提问的意义,从中取得概念信息和范畴知识。

 

查看相关论文专题
加入收藏  打印本文
上一篇论文:中学网站制作
下一篇论文:自适应梯度权值的TV图像修复
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
最新计算机论文
读者推荐的计算机论文