基于Ontology的搜索引擎排序算法的研究

时间：2011-04-23 作者：秩名

论文导读：基于本体的智能搜索是基于知识的、语义上的匹配, 在查全率和查准率上有更好的保证。但是面对如此浩瀚的信息，能让用户发现所需要的信息就需要一个好的排序算法来使得用户真正需要的信息能出现在显要位置。因此, 基于本体的搜索排序算法也就成为一个新的研究问题。当为搜索短语选择了具体的域后，我们的搜索器将使用这些短语及本体论来产生搜索概念及为语义搜索产生相关的概念。
关键词：本体,排序算法,搜索,语义
随着Internet 的普及和推广, 人们越来越依赖于互联网络进行各种商务活动和信息查询, 因此网络信息查询已经成为人们研究和讨论的热点领域。现在流行的网络搜索引擎很多, 每一种都有各自的特点。但都存在一个很大的缺陷, 那就是在搜索信息的时候无论从查全率和查准率上都存在一定的不足, 一个主要的原因是现在的搜索引擎都是基于关键词或者基于内容分类目录进行查找的,使得搜索引擎很少具有进一步的智能化,这样就不可避免的出现垃圾信息 [1] 。
近几年, 本体理论的发展和逐步成熟为信息检索技术的发展带来了新的动力, 同时也为提高检索系统的查准率和查全率提供了更好的保证。作为一种有效表现概念层次结构和语义的理论和方法, 本体已经被广泛应用于计算机科学和信息管理领域 [2] 。
基于本体的智能搜索是基于知识的、语义上的匹配, 在查全率和查准率上有更好的保证。但是面对如此浩瀚的信息，能让用户发现所需要的信息就需要一个好的排序算法来使得用户真正需要的信息能出现在显要位置。因此, 基于本体的搜索排序算法也就成为一个新的研究问题。
2本体概念
本体是一个源于哲学的概念, 原意指关于存在及其本质和规律的学说, 后来被计算机科学领域引入, 特指对共享概念模型所作的明确化、形式化、规范化说明, 它强调领域中的本质概念, 也强调这些本质概念之间的关联。
关于本体的概念，其中最著名、被引用最为广泛的定义是由Gruber 提出的: '本体是概念化的明确的规范说明' [4] 。Studer 对本体诸多定义进行概括分析后认为, 本体论的概念包括四个主要方面 [5] :
1) 概念化(conceptualization): 客观世界现象的抽象模型, 其表示的含义独立于具体的环境状态。
2) 明确(explicit): 概念及它们之间联系都被精确定义。
3) 形式化(formal): 精确的数学描述，计算机可读。
4) 共享(share): 本体中反映的知识是其使用者共同认可的,是相关领域中公认的概念集, 它所针对的是团体而不是个体。
3基于本体搜索引擎排序算法
图3-1是基于本体智能搜索引擎的搜索过程 [6] 。

图3.1搜索过程

3.1搜索过程
在用户输入搜索关键字后，我们的搜索器将在本体库中查询短语，来得到包含关键字的本体论。然后搜索器发送这些可能相关的本体论给用户选择，以避免文本的模糊性，因为不同的领域可能包含相同的短语 [7] 。当为搜索短语选择了具体的域后，我们的搜索器将使用这些短语及本体论来产生搜索概念及为语义搜索产生相关的概念。搜索器将在索引库中为每个关键字短语扫描搜索索引，获取所有概念相关的文档。然后排序器将使用这些文档及本体论来排序及过滤，以获得一组对应于用户查询的排序的文档列表。为了改进搜索召回，应用本体论通过概念来执行搜索而不是短语。另一方面，我们通过使用链接文档及相关的概念来进行过滤，而不是使用链接结构来改进搜索精度。
3.2链接扩展
我们的排序器能够发现和查询短语或者主搜索概念中的短语至少一个匹配的文档标识符集。这个文档集，我们称之为根集 [8] 。排序器将这个根集扩展为一个基本集，这是通过把和这个根集有链接关系的文档包括进来来完成的。在我们实现的排序器中，我们对根集执行了二层的扩展。
首先，我们得到所有链向种子集任何某个文档的所有文档及哪些被种子集链接的文档。然后，我们把这个文档集作为新的根集，再执行一次扩展。图3-2解释我们的二层扩展，根集及基本集。基本集是根集的超集，即根集任基本集。

图3-2根集和基本集
注意在我们的扩展过程中，图3-3-(}中的重复的一条链接被删去，如图3-3-(a)所示。而且，二个文档可能链向同一个文档或者被同一个文档链接，如图3-3-(c)和3-3-(d)。他们可能在内容或者链接上有紧密的关系。然而使用单层扩展就不能发现这样的关系。正是由于这个原因，我们的系统中实现了多层扩展。我们方法的执行时间将和层数成比例。

图3-3超链接关系图
3.3排序算法
我们的算法中有8个主要的步骤:
Step1. Expand thequay result from root set to D
Step2. Transformeach document vector di in D to each search concept space
Step3.Computehyper-weights for each concept cj in document di
, Step4.Compute hyper-document-vectors hdv(i,j) foreach concept cj and di

1/2 1 2 下一页尾页

查看相关论文专题：

	加入收藏打印本文
上一篇论文：基于office的组卷系统的设计与实现
下一篇论文：基于OpenGL的三维物体纹理贴图研究初苗(图文)

科技论文分类

相关计算机论文

最新计算机论文

读者推荐的计算机论文