基于XML描述的WEB信息抽取技术研究(图文)

时间：2011-04-23 作者：秩名

论文导读：怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。
关键词：数据抽取，XML，半结构化数据

1.引言

互联网已成为人们获得信息、取得服务的重要渠道之一。怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。

Web数据抽取是从网络中获得客户需要的文本、多媒体等信息的过程。例如:需要查找清华大学出版社新书的出版情况。发表论文。这就需要给出一个程序自动访问清华大学站点上的相关页面并返回有关数据。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。

2.XML 与Web 数据抽取

XML (extensibleMarkup Language) 是由W3C 设计, 特别为Web 应用服务的SGML (Standard Gener2alMarkup Language) 的一个重要分支, 它是SGML的一个简化子集, 将SCGL 丰富的功能和HTML 的易用性结合起来, 以一种开放的、自我描述的方式定义数据结构。发表论文。XML 解决了HTML 不能解决的两个Web 问题, 一是Internet 发展速度快而接入速度慢的问题, 另一个是可利用的信息多, 但难以找到自己需要的那部分信息的问题。XML 能增加结构和语义信息, 可以很容易地将XML 的文档描述与关系数据库中的属性一一对应起来, 实施精确地查询抽取。发表论文。

3.数据抽取过程描述

Web页面抽取处理过程如下：

3.1 获取页面

在数据抽取过程中, 通过站点链接查找Web页面会遇到两种Web 页, 一是包含所需数据的Web 页, 二是包含所需数据的目标页面的超链接Web 页。对Web 站点的导航规则可以经过仔细分析目标站点, 结合所需数据的特点进行手工编写或者借助于一些半自动化的工具编写。

3.2 页面清洗

当前许多Web 站点上的HTML 代码并不是格式完整的, 首先要把这种格式非良好的HTML 文档转变成格式良好的XML 文档, 然后提取用户所需的信息。用XML 标引的网络数据是一种半结构化的数据模型, 通过具有语义的TAG可以清晰地标识网页的逻辑结构, 从而能方便地实施准确的信息查询与模型抽取, 完成异构网络数据的整合。将HTML 文档转换成XML 以便数据抽取, 一般可采用过滤软件修复被破坏的结构, 并产生一个良好的HTML 结构, 即XHTML , 目前有一些对HTML 页面设计进行规范化组织的工具, Tidy 就是一种过滤HTML 文本中错误的免费产品。使用由Tidy 库提供的功能可以在XMLHelp1tidyHTML ( ) 方法中做转换, 把URL 作为参数进行方法调用, 输出结果产生XML 文档格式, 如下代码可以实现。

Public staticvoid main(String arg[ ])

{try

{Documentdoc=XMLHelper1tidyHTML(“http://www.changhong.comPcatalogglobalPlcd1html”) ;

XMLHelper.outputXMLToFile( doc ,”XML ” +File.separator + lcd.xml”) ;

}

catch(XMLHelperException xmle)

{//……}

}

3.3 数据转换

假定已从某电子产品的相关网页上获取了有关新产品的信息, 需要按照数字高清新产品(数字高清产品名、技术参数、类型、价格) 这样的格式构造XML 文件, 本文采用XSLT 的方法来进行转换, 主要代码如下:

< ? xmlversion = ”110”encoding= ”UTF28”? >

< xsl :stylesheet version = ”110 ”xmlns: xsl = ”

www1w31orgP2001PXSLPTransform>

< xsl :outputversion = ”110”indent= ”yes”encod2

ing = ”UTF - 8”omit - xml -declaration = ”no”method

= ”xml”P>

< ! - 建立根元素寻找信息的引用点- >

< xsl:template match = ”Phtml”>

< Result >

< Item >

< xsl :apply- templatesP>

< Item >

< Result >

<Pxsl:template >

< ! - 匹配需要的信息内容- >

< xsl :templatematch = ”text () ”>

<Pxsl:template >

< ! - 从引用点开始,提取所需信息的各项内容- >

< xsl :template match = ”PHTMLPBODYPTABLE[1]PTR[2 ]PTD[3 ]”>

</xsl:template >

< lcd name>

< xsl :value- of select = ”tr/td[3 ]/ font”/>

</lcd name>

< /arameter>

< xsl :value- of select = ”tr[3]/td[3 ]/ font”/>

</parameter>

< type >

< xsl :value- of select = ”tr[6]/td[3 ]/ font”/>

</type >

< price >

< xsl :value- of select = ”tr[9]/td[3 ]/ font”/>

</price >

</xsl:template >

</xsl:stylesheet >

4.结语

面向Web 的数据挖掘是一项复杂的技术,由于Web 数据挖掘比单个数据源的挖掘要复杂得多,因而面向Web 的数据挖掘成了一个难以解决的问题。而XML 的出现为解决Web 数据挖掘的难题提供了解决方法。由于XML 能够使不同来源的结构化的数据很容易地结合在一起,因而可以搜索多样的不兼容的数据库,从而解决了Web 数据挖掘的难题。同时,由于基于XML 的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个标准,XML 为组织、软件开发者、Web 站点和终端使用者提供了许多有利条件。相信在以后,随着XML 作为在Web 上交换数据的一种标准方式的出现,面向Web 的数据挖掘将会变得非常轻松。

参考文献
[1] 谢丹夏.Web 上的数据挖掘技术和工具设计[J ]. 计算机工程与应用,2001 , (6) :85－87.
[2] 陈玉芳,葛燧和. 一个基于XML的WEB数据收集模型的研究[ J ]. 计算机工程与应用, 2004, (10) : 150 -152.
[3] 王玉珍.Web数据挖掘技术与XML[J].信息技术,2005,(10)
[4] 黄豫清,戚广志,张福炎. 从WEB 文档中构造半结构化信息的抽取器[J ] . 软件学报,2000 ,11(1) :73 - 78.
[5] Myllymaki, Jussi. Effective Web DataExtraction with Standard XML Technologies[ C ]. International Journal ofComputer and Tele2 communication Networking In: 10 th intl. World Wide WebConf. Hong Kong, May 2001.

查看相关论文专题：

	加入收藏打印本文
上一篇论文：基于XML的WEB数据挖掘研究
下一篇论文：基于本体的自然语言检索研究

科技论文分类

相关计算机论文

最新计算机论文

读者推荐的计算机论文