网络论坛的问答搜索技术研究

时间：2011-04-23 作者：秩名

论文导读：可以有效提高问答检索的准确性。答案抽取及排序问题决定了整个系统的性能。在这里我们使用RankingSVM。排序方法。网络论坛的问答搜索技术研究。
关键词：问答检索，答案抽取，Ranking，SVM排序

1 引言

随着搜索技术的不断发展，搜索引擎从全文搜索、综合式搜索慢慢向个性化化、专业化、智能化发展。如今个性化搜索引擎系统、垂直搜索引擎[1]系统正逐渐得到更多用户的青睐。下面针对论坛资源的问答检索就是一种更专业搜索引擎系统。

论坛作为一种专门为用户提供信息交流和讨论的地方，只要授权登录用户都可以在论坛上发布和回复消息。目前论坛众多，涉及的领域广泛，应用形式多样，譬如有电子公告板(BBS)、新闻组(Newsgroup)、讨论组、贴吧等。论坛吸引了大量用户，其中一项重要的功能是解决问题。用户针对某一领域发帖提出问题，其他用户回复帖子，通过相互交流信息，达到解决问题的目的。论坛集聚了大量的人力资源，由人肉搜索引擎释放出来的威力就可见一斑。人肉搜索也是一类提问回答网站，先是一人提问，然后八方回应，通过网络社区集合广大网民的力量，寻求答案，追查事实真相。

随着网络的普及，无数人在利用论坛进行问题的问答和讨论，其中很大一部分问题都能得到质量较高的回答。当然，可以利用这些基于主题的问题/答案对，进行采集处理，提供检索加以利用。当用户搜索问题时，能够定位到已搜集论坛中某个相似甚至完全相同的问题，将回复答案返回给用户，将大大提高问题解决的效率和准确度，这也将优于一般的信息检索系统。如何构建这样一个问答检索系统以及提高查询的精度将是本文研究的重点。

2 关键问题

要实现对论坛各种问答资源的有效整合和利用，需要解决数据采集与格式化、答案抽取与推送排序、索引建立、数据存储、问题映射等方面的问题。

对于数据的收集和格式化问题，不同于互联网全文搜索引擎，对论坛数据的利用不能简单基于页面，而需要将其表示为以帖子为单位的格式化数据，其中涉及到数据拆分、数据抽取、数据清理等一系列难点。当然可以通过特定的程序抽取问答数据，并使用语法分析、正则表达式等技术对数据格式化。论文检测，Ranking。

答案抽取及排序问题决定了整个系统的性能，是要重点解决的问题。论坛中对一个主题帖子的回复数量可能很多，内容可能五花八门，可能是对问题给出的答案，也可能是毫无价值的回复，有用信息不一定很多。即使同为答案，质量上也存在差别。如何高效、准确地将答案抽取出来，并按质量高低推送给用户参考，是研究的关键问题，也是具有一定挑战性的问题。

索引建立、数据存储与一般互联网搜索引擎系统的做法相差不大，在此不作详细介绍。而对于问题映射，实际上是将用户查询的问题映射到系统存储数据库中的相似问题。在这里，并不是将查询映射到答案，而是映射到已有问题，而已有问题关联了相关答案。论文检测，Ranking。这有别于一般互联网查询中的关键词匹配网页的方法，可以有效提高问答检索的准确性。问题映射通过关键词匹配或余弦夹角相似性度量方法就可以取得较好的效果。

其实，已有不少人在研究论坛数据并提供查询检索。国外有FAQ（Frequently Asked Questions）[2]、新闻组搜索、QA查询系统，国内有猫扑网、百度知道、中搜论坛搜索等。上述系统中，有些并未按问题/答案对形式提供检索，有些搜集检索的范围仅局限于本站，有些未对答案进行抽取量化而导致查询结果质量不高。本文着重解决论坛中回复答案抽取及排序问题，以期提高检索系统的性能。

3 基于论坛数据的答案抽取与排序

3.1 论坛的组织结构

论坛是一个供用户进行信息发布、交流和互助的虚拟社区，论坛集聚了大量人力资源，用户在其中扮演了内容制造和发布的角色。一个论坛一般包括管理页面、导航页面和内容页面。每个论坛都会针对一定的领域设置一些主题，围绕其主题供用户交流讨论，某些主题可能划分得更具体，一个版块下有若干子版块，从而构成一个层次的组织结构。将主题（Topic）帖及回帖看成节点，由此形成一棵树状的结构。

3.2 问答的组织

论坛中很大一部分是用于问题解答的。论文检测，Ranking。许多论坛都设置了专门的版块用于讨论和解答问题。用户将希望得到解答的问题发布到相应的版块中，其他用户对该问题进行回复，回复内容可能是答案、推荐的文章或站点，以及其他有用的信息和意见等。论文检测，Ranking。另外，提问人和其他用户也可以给出反馈、评论，甚至是提问人发表自己突然领悟的答案。通过这种群体讨论模式，很多问题都能够较快地得到满意或高质量的答案，特别在一些用户量众多的热门论坛。由此可见，当用户的信息需求是对具体问题的解答时，一个合适的论坛通常能够提供快速、针对性强和高质量的答案。论文检测，Ranking。基于此，可以从大量的论坛中收集数据，从各个主题中抽取出相应的问题/答案，结构化处理后存储到问题/答案库。这些问题/答案对涵盖了数量众多的论坛，发挥人的参与性优势，因此答案质量较高。当问题/答案库极其丰富后，将有效提高检索质量。

3.3 答案抽取技术

由上一小节可知，针对问题的回复内容可能千差万别、杂乱无章，有些可能是需要的答案，有些可能是毫无价值的回复，而我们需要能够区分那些有意义的答案，将它们与原始问题构成问题/答案对，这就必须拥有一种高性能的自动化答案抽取技术，才能实现对论坛资源的有效利用。

对于问题主贴的回帖，根据其内容性质，将它们大概划分为询问、补充、解释、评论、答案、无意义帖等类型，而我们需要的是答案，需要对答案进行抽取。如果有一种方法，能够将所有回帖根据与问题相关性进行排序，质量越高的答案排在前面，质量较低的或根本无关的帖子往后靠，那么通过排序，取前面一部分帖子就可以得到满意的答案。当然，我们设想所有论坛像百度知道那样，由提问者对回帖标注最佳答案，答案抽取问题将由人工决定得到完美解决，但事实并非如此，许多问题解答论坛并没有标注任何结果，这不得不通过机器学习来解决。

概率统计的方法是答案抽取常用的解决途径，通过设计合适的计算模型，有效结合候选答案的各种特性，计算出候选答案是正确答案的概率值，从而进行答案抽取。文献[3]设计的概率模型能够方便地将候选答案的特征信息及其关系以概率的形式添加进来，具有良好的可扩展性。文献[4]利用无向概率图模型进行答案排序，该模型计算所有候选答案的正确性的联合概率，再计算出一个独立的候选答案的正确性的概率，这种联合预测模型可以把候选答案自身的先验信息，以及候选答案之问的各类相似性等特征结合考虑，具有较好的质量。在这里我们使用Ranking SVM[5]排序来进行答案抽取。

3.3.1 Ranking SVM排序方法

文献[5]介绍的Ranking SVM是机器学习排序的一种方法，它把排序问题转换成了一个分类问题，然后用支持向量机（SVM）训练出一个模型来解决。在此利用Ranking SVM对回帖文档进行排序。

对一个文档集D={d1,…,dm}，假设存在一个最优排序r*,而排序函数f给出的排序为rf。如果rf越接近于r*，则说明排序模型的性能越好。这里用度量rf接近r*的程度。假定两个文档集的全序关系ra和rb，用P表示两个排列中一致对的数量，用Q表示非一致对的数量，度量定义如下：

Ranking （3.1）

有了度量，便可以通过由训练样本来学习排序函数。对于给定的训练集T={t1,…,tn}，其中t=(p,D)，即对于问题p和所有回帖集D，训练的目标就是得到一个排序函数f使得所有训练样本的期望度量最大化，如下式：

（3.2）

排序函数f在这里使用Ranking SVM排序模型，类似SVM分类器[6]，引入非负的松弛变量，并最小化的上界来逼近原问题的解。给定一个提供全序关系的训练集合S={(p1,),(p2,),…, (pn,)}，利用SVM最大化间隔的规则化方法，得到如下Ranking SVM的优化问题，最小化目标：

1/2 1 2 下一页尾页

查看相关论文专题：

	加入收藏打印本文
上一篇论文：网络黑客攻击手段分析及防范技术(图文)
下一篇论文：网络内存服务器

科技论文分类

相关计算机论文

无相关信息

最新计算机论文

读者推荐的计算机论文