欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 毕业论文 > 计算机毕业论文

浅谈web信息抽取

时间:2015-10-20  作者:李斌
  目前,除了强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE, Automatic Content Extraction)评测会议。这项评测从1999年7月开始酝酿,2000年12月正式开始启动,从2000年到2007年已经举办过好几次评测。这项评测旨在开发自动内容抽取技术以支持对三种不同来源(普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本)的语言文本的自动处理,研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事件的识别与描述。与MUC相比,目前的ACE评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross-document processing)能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。

 

国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL-2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC-6和MUC-7上,增加了中文系统的评测项目,国立台湾大学(National Taiwan University)和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测,测试了中文命名实体(人名、地名、时间、事件等名词性短语)的识别,取得了与英文命名实体识别系统相近的性能。当然这只是对中文信息提取作了比较初步的工作,并不能真正进行中文信息提取。另外,北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨,承担了两个有关中文信息提取项目的工作,即自然科学基金项目“中文信息提取技术研究”和IBM——北大创新研究院项目“中文信息提取系统的设计与开发”。其目标是研究中文信息提取中的一些基础性和关键性的问题,为开发实用的信息提取技术提供理论指导,并具体探讨信息提取系统设计的各个环节。

五、研究的热点和趋势

从目前的研究和应用情况看[10],信息抽取系统的性能和可移植性仍然是制约web信息抽取技术广泛应用的两个主要瓶颈。信息抽取的准确率,对不同语言和不同类别的文本的适应性还有待提高,在自然语言处理中的核心问题仍未完全解决,而且与国外相比,我们在信息抽取系统的研究上仍存在很大的差距。

因此,以下问题将是今后Web信息抽取技术研究的热点问题:

1. 如何提高Web信息抽取系统抽取范围的全面性。

2. 如何简化学习过程,提高自动化程度。

3. 如何提高系统对新网页的适应性,增强系统对Web信息抽取的适应性。

4. 如何加强对已有抽取规则的归纳,提高系统的抽取效率和准确性。

5. Web上的信息和网页结构处于不断的更新和变化中,因此应如何感知Web信息和结构的更新变化。

6. 目前的Web信息抽取工具一般都是通过学习之后可以对结构相似的一类网页进行抽取,因此应如何判断结构相似,如何提高系统的性能、可移植性的设计以及适应多语种的能力。

7. 在中文Web信息抽取系统的研究方面,应如何借鉴国外比较成熟的系统构建技术,并结合汉语的特殊性,充分利用一些基础的汉语研究成果来构建高效、精确的中文Web信息抽取系统。

六、结束语

Web信息抽取是目前最活跃的研究领域之一,特别是经过最近十几年的发展,Web信息抽取作为一种能帮助人们在海量信息中迅速找到所需信息的技术越来越受到重视。尽管目前该领域研究已经取得了一定的进展,但仍然存在一些问题有待解决。相信随着领域专家对Web信息抽取领域的研究的逐渐深入,难题逐渐被解决,越来越多的好技术应用到该领域,Web信息抽取技术必将得到更大的发展和更广泛的应用。

查看相关论文专题
加入收藏  打印本文
上一篇论文:密码学技术及应用
下一篇论文:浅谈基于校园资源计划( CRP 系统)下的高校数字化管理模式
毕业论文分类
行政管理毕业论文 工商管理毕业论文
护理毕业论文 会计毕业论文
会计专业毕业论文 英语专业毕业论文
大学毕业论文 硕士毕业论文
计算机毕业论文 市场营销毕业论文
物流管理毕业论文 法学毕业论文
相关计算机毕业论文
最新计算机毕业论文
读者推荐的计算机毕业论文