欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

自然语言检索中的概念语义控制

时间:2011-04-23  作者:秩名
3.3.2 具有记忆能力

通过记忆机制,将输入的原文内容根据其概念来进行组织安排,将自然语言处理所取得的概念信息和范畴知识存储到知识库中,并能自动补充与更新。记忆机制还能够进行必要的逻辑推理。

3.3.3 具有专家系统(或称知识库)

文献内容和用户提问都能以概念和范畴等知识形式存储在知识库中,系统通过语义分析机制和记忆机制获取有关检索和推理的知识,以此来匹配查找知识库中已有的信息作为对用户提问的回答,并且推理出新的信息以更好地满足用户的需求[4]。

3.3.4 人机接口

根据文献摘要求进行最后的加工,并以自然语言的形式提供给用户。

关键词检索方式是一种以词汇控制为关键词层面提高到知识(或概念)层面是目前情报信息检索领域研究的一个热点。本文通过对概念检索、语义检索以及它们之间关系的阐述,说明了如何实现自然语言检索中的概念语义控制,从而能够从概念意义层面上来认识和处理用户的检索需求。

4 语义检索

4.1 什么是语义

语义到底指的是什么?这是一个比较难回答的问题。“语义”作为一个很特殊的词语,每个人对它的理解都各不相同,尤其是当这个概念被不同领域所引用的时候,它的含义往往存在着一些差异。此处主要介绍如下两种观点:

(1) 广义上的语义:认为“语义”就是文本的含义。语义需要理解文本的意思和结构,而与显示方式无关。

(2) 数据表示中的语义:Uche Ogbuji曾经在XML的基础上对语义作了如下的定义,他认为“语义”是构建在公用语法上的系统中XML数据的一层规范。论文格式,语义检索。由此定义引出了许多标记了XML语义的概念。包括:

(a) 元素类型的名称、属性名称和某些情况下内容术语的解释。

(b) 用于用有效文档引导事务的处理规则(也称作商业规则)。

(c) 一个文档中的结构化元素与另一个文档中的结构化元素之间的关系。

前一种观点是一种比较普通的看法,而后一种观点则比较具有针对性,主要是面向网络信息而言的;本文中采用对语义的前一种理解。

4.2 语义检索的涵义

语义检索,又称概念匹配,其基本思想是:首先识别并抽取表达文档内容的概念,然后用这些抽取出的概念来表示文档;同样,用户查询也被表达为概念,在两者之间进行概念匹配——匹配在语义上相同、相近、相关联的词语。

语义检索是人类所希望的一种检索方式,目前对它的研究只是停留在一个初级阶段上,主要通过对语义检索的一种实现形式——概念检索进行深入研究,逐步促进完全自动化的语义检索的实现。

通常所讨论的语义检索主要针对的是文本信息检索领域,而现实中,语义检索所应用的领域相当广泛。例如:

(1) 基于内容的图像语义检索

二十世纪七十年代末,基于文本的图像检索技术就已经产生,它通过对图像进行手工注释,利用文本检索技术进行了关键字的检索。二十世纪九十年代初,大规模图像集不断涌现,研究者们提出了基于内容的图像检索(Content-based Image Retrieval,CBIR)。CBIR使用颜色、纹理、形状及区域等视觉特征进行检索,而这些视觉特征是唯一可以独立、客观地直接从图像中获得的信息。这一方法成为二十世纪九十年代图像检索技术研究的主流。

然而,人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。图像必须附加上包括语义在内的各种内容信息,才能真正支持语义检索。CBIR作为一项备受关注的技术在研究和商业方面都取得了一定的结果,但由于它只利用了图像本身固有的物理信息,因此,它只在特定的应用领域,如指纹识别、商标检索等方面获得成功。而要使图像检索技术真正满足用户个性化的需要,必须把图像检索看作一个系统,考虑包括人在内的各种因素对于系统的影响。其中主要的工作和面临的困难来自3个方面:① 必须提供图像语义的有效描述方式;② 必须有提取图像语义描述的方法;③ 语义检索系统的语义处理方法。

(2) InterSpace和语义检索

语义检索只有在相应的信息基础结构上才能实现。特别是在一个由分布的、异构的信息仓储构成的多媒体网络信息环境中实现仓储的语义联邦和检索的概念匹配——语义检索,这是数字图书馆所面临的最大挑战。

DLI(Digital Library Initiative,数字图书馆创始工程)在UTUC(Universityof Illinois at Urbana Champaign)的项目InterSpace中提出了建构互联的信息空间(InterSpace),以实现跨仓储的语义联邦和语义检索,提出了本世纪网络信息环境的发展方向——信息分析环境。主要研究内容如下:

① 语义索引

首先识别并抽取表达文档内容的概念。方法是上下文同现统计分析(Co-occurrence),分析哪些词同时出现在同一句中,并统计其频率,构造同现词概念图,然后用抽取出来的这些概念词对文档自动标引。仓储中各文档概念图的集合形成了本仓储的概念空间,也就是该仓储所属的专业领域的概念空间。

② 语义互操作(Semantic Inter-operability)

语义互操作即跨专业领域的词汇切换。论文格式,语义检索。在不同领域的同现概念图间交叉互连,即在分属不同的概念空间、具有相应语义的术语之间进行映射,实现跨仓储的语义联邦。论文格式,语义检索。由于这些概念空间常常来自于不同的社区图书馆,这样,就提供了一条在不同的图书馆间进行概念映射的途径,实现跨专业、跨图书馆的语义互操作。

③ 语义检索

完全的语义检索有待于人工智能技术和自然语言理解技术的成熟。InterSpace是在词汇切换和语义联邦的基础上,借助交互式的术语提示来实现语义检索的。在用户检索的过程中,系统向用户提供概念图,并根据用户输入的检索词定位相关的部分,供其选择候选的检索词。对于词汇切换问题,由用户在两个不同领域中指定一个共同的术语,系统根据此线索在两个专业领域的概念图间交叉连接,并显示这两个领域中此术语周围的概念图。如此,用户就有了两个术语提示表,以比较那些分属于不同的专业领域却表达了同一概念的两套词语。

对未来的期望是将概念空间纳入到网络信息系统的基础体系结构中。网络上所有的信息,个人的、社区的,都组织到仓储中,概念空间的构建和交叉互连成为仓储的基本操作。这样,从个人到社区都有自己的信息空间,Internet成为InterSpace。在概念空间互连和语义匹配的支持下,InterSpace提供对知识跨网的透明操作,其基本功能是互联信息空间,以完成跨仓储的信息关联。用户在InterSpace中选取相关对象的导航路径,系统自动记录下来,然后以此路径去匹配其他仓储的相关路径,实现全网的无缝语义检索,为用户提供一个单一的、虚拟的、统一的网络,一个联邦的信息分析环境。

(3) 语义Web(Semantic Web)

前面已经介绍了语义的概念,那么语义Web指的又是什么呢?简单地说,语义Web就是能够根据语义进行判断的网络。语义Web是最近才提出的一个概念,即Web的内容不仅仅用来显示,更重要的是要具有真正的含义,这样可以通过软件工具在Web中漫游来处理用户所提出的各种复杂的要求。

语义检索应用的领域非常广泛,而语义Web则是它的另一个应用。

语义Web是一种能够理解人类自然语言的智能网络,它不但能够理解人类的语言,而且还可以使人与计算机之间的交流变得像人与人之间的交流一样轻松。它就好比是一个巨型的大脑,由数据库智能化程度极高,协调能力非常强大的各个部分组成,可以解决各种复杂的难题。在语义Web中,网络不仅能够连接各个文件,而且还能够识别文件里所传递的信息内容,也就是说,它是一种高智能型的网络,可以从事人所从事的工作。例如:它可以让计算机辨别和识别“head”这个单词的意思是“头脑”还是“领导”;在读者看新闻时,它能够轻松地分辨出哪句是标题、哪句是导语[5]。

语义Web是对万维网的本质的变革,它的主要开发任务是使数据更加便于计算机进行处理和查找。其最终目标是让用户变成全能的上帝,对因特网上的海量信息达到几乎无所不知的程度,计算机可以在这些信息资源中找到用户所需要的信息,从而将万维网中一个个现存的信息孤岛发展成为一个巨大的数据库。

由于语义Web中的计算机能够利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息,使得人类可以从搜索网页的繁重劳动中解放出来。而不像万维网,只能够为检索用户罗列出数以万计的检索结果,并且其中还包含了大量不相关的内容。

语义Web虽然是一种理想中的网络,但其实现起来却是一项相当复杂而且浩大的工程。它的实现主要是基于XML(可扩展标记语言,Extensible Markup Language)和资源描述框架(Resource Description Framework,简称RDF)。

4.3 语义检索的优点

语义检索可以解决信息检索中的“词汇问题”。论文格式,语义检索。研究人员常常需要借鉴其它领域的研究成果,但是由于专业术语的隔阂,即便是在非常接近的领域也常常难以找到所需的文献。例如,在山谷中架桥的工程师为了研究风力对桥梁结构的影响,希望能够参考在海底铺设管道的工程师研究水流对管道结构的影响。解决词汇问题的方法是从所涉及的专业领域中在语义上可匹配的术语之间进行词汇切换。如前述的桥梁工程师可直接使用自己熟悉的空气动力学术语,系统则自动将之转换为海洋流体方面的术语。

4.4 语义检索与概念检索的关系

概念检索与语义检索在本质上是两个范围不同的概念,但二者有着密切的关系。

首先,概念检索本身有着广义和狭义之分,通常认为狭义上的概念检索是一种语义检索。其次,语义检索是人们所期望的一种理想的检索方式,它涉及到多个领域。论文格式,语义检索。由此可以得出,概念检索只是语义检索的一种实现方式,二者具有交叉部分。如果只考虑狭义上的概念检索和面向文本领域的语义检索,则可认为概念检索就是语义检索,二者指的是同一种检索方法。

5 自然语言检索中概念语义控制发展的新趋势

5.1 概念空间

概念空间方法为解决词汇控制问题提供了一种新的理念。概念空间方法是自动构造概念语义网络,并以此为基础进行概念检索的一种方法。它的目标是通过文本挖掘技术建立一个知识丰富、可理解的概念空间语义网络,揭示文档中的概念及概念间的关联。概念空间的构造主要包括四个步骤:文档收集、自动标引、共现分析以及联想检索。概念空间适应知识检索的要求,一旦概念空间生成,用户可以根据系统提供的多词语多链接的交互式词语建议,实现同义扩展检索、语义蕴含和外延扩展检索及语义相关扩展检索,从根本上解决了词汇差别的问题[6]。

5.2 本体论

本体论(Ontology)起初是一个哲学的范畴,后来应用到人工智能、知识工程等多个领域。本体论是某领域内概念模型明确的、形式化的规范说明,就其实质而言,本体论是特定领域内规范化的词汇关系和推理规则的集合,描述了该领域内公认的对象及对象间的关系。与受控词表相比,本体论具有良好的概念层次结构和对逻辑推理的支持,能更精确地表达概念,更全面地揭示概念间的关系,从而对自然语言的控制更为详细和准确,因而更适合于智能化知识检索。本体论将在未来信息检索中占有重要的地位[7]。

6 结束语

丰富的网络资源为人们的信息需求提供了一个庞大的信息源。但是,传统的单纯基于字面层次的关键词匹配技术已经远远不能满足用户的需求,用户需要的是一种智能化的信息检索技术的出现,即语义层次上的信息检索。

语义检索将信息检索从基于关键词层面提高到基于知识(概念)层面,利用词语之间的同义、近义、反义以及其它一些相关关系从概念意义层次上来认识和处理检索用户的请求,具有信息服务的智能化、人性化特征,提高了检全率和检准率,更好地满足了用户的检索需求。


参考文献:
[1]耿骞,赖茂生.自然语言检索的实现及其关键问题.图书情报技术[J]. 2007, 25(5): 733-736.
[2]Conceptual Indexing for Precision ContentRetrieval.[2010-11-01], http:// www .sunlabs.com /research/knowledge/
[3]Michael L Mauldin. ConceptualInformation Retrieval [M]. NewYork: Kluwer Academic Publishers, 1991: 2-45.
[4]胡兆芹,张工靖.概念检索在检索网络信息中的应用.中华医学图书情报杂志[J] . 2005, 14(2): 13-15.
[5]邱树熊,李志蜀,王娣.语义网络及其Web信息检索机制研究. 计算机工程[J].2004, 30(23): 118-120.
[6]朱晓华.基于概念空间方法的信息检索技术研究.大学图书馆学报[J]. 2003(2): 47-53.
[7]李雅琼.自然语言检索的新发展:与Ontology相结合. 信息系统[J]. 2007, 30(2): 248-251.
 

查看相关论文专题
加入收藏  打印本文
上一篇论文:中学网站制作
下一篇论文:自适应梯度权值的TV图像修复
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
最新计算机论文
读者推荐的计算机论文