一种基于XML的Web内容挖掘预处理方法_Web文档

时间：2011-05-27 作者：秩名

论文导读:：以保证Web内容挖掘的有效进行。。必须对Web文档进行一定的预处理。以及利用Web文档进行趋势预测等[1]。
关键词：Web内容挖掘，XML，预处理，Web文档

随着数据通信技术和网络互联技术的不断发展，万维网（World Wide Web，WWW）以几何速度不断扩大，不断增加的Web文档使其成为一个巨大的、分布广泛的、全球性的信息服务中心。Web摘要、分类、聚类、关联分析，以及利用Web文档进行趋势预测等^[1]。然而，Web文档具有半结构化的特点，在进行数据挖掘之前，必须对Web文档进行一定的预处理，以保证Web内容挖掘的有效进行。

1 Web文档的半结构化特点

Web中的数据非常复杂，难以用特定的模型描述。对于不同站点的Web文档，其数据组织方式是由各站点独立设计的，使Web文档在总体上呈现非完全结构化的特点。另一方面，数据本身具有自描述性和动态可变性，Web数据又具有结构性。

Web中数量最多的是HTML格式的文档，作为一种标记语言格式文档，HTML文档具有较强的结构性Web文档，但是，由于HTML本身设计的缺陷以及使用过程中的滥用，HTML内部结构的条理性越来越差。对于Web内容挖掘而言^[2,3]，Web文档的半结构化特性阻碍了挖掘的有效进行，如何对Web文档进行结构化处理，尤其是对HTML文档进行处理，成为Web数据挖掘领域的又一热点^[4]。

2 半结构化数据的结构化处理

2.1 关系数据库

对HTML文档进行结构化处理，首先对HTML文档进行分析，根据文档中数据组织格式和文档的特点，在关系数据库中建立相应的表结构，其次将HTML文档中有用的数据提取出来，存储成关系数据库的记录。

2.2 XML

XML是由W3C定义的可扩展的置标语言，它分为三层结构：数据表现层、数据组织层和数据交换层。XML的三层架构，使得XML文档具有很好的结构性，对XML的Web挖掘技术的研究^[5,6]为WEB内容挖掘提供了很好的解决方法。

2.3 使用XML而不是关系数据库的原因

XML的数据定义和关系数据库中的表结构之间存在着内在的对应关系，通过一定的方法，二者还可以互相转换^[7,8]会计毕业论文范文。在这里，之所以选择XML而不是关系型数据库，主要有以下几点原因：

（1）HTML文档的数据组织格式是千变万化的，按照某种标准分析后建立的数据结构是否合理，需要通过实际挖掘应用加以检验。XML文件是纯文本文件，不受数据库操作系统的限制，修改XML的数据定义比修改关系数据库的表结构要方便得多。

（2）XML具有较强的语义描述功能，这是关系数据库所做不到的。

（3）关系数据库对数据类型的控制非常严格，而HTML则没有对数据类型的控制。为了满足关系数据库的要求，有时可能会错误地丢掉HTML文档中的有用数据，影响挖掘的有效性。而XML在数据类型的控制方面没有关系数据库那么严格，这就为进一步处理半结构化的数据提供了方便。

3作为中介的XML数据定义

为了实现对HTML文档进行统一的处理，设计了如下的XML数据定义，并依此格式对需要的HTML文档进行重整和信息抽取。

<?xml version='1.0'encoding='GB2312'?>

<!ELEMENT AvilablePages (Page)*>

<!ELEMENT Page (URL, Title, Category,Content, Summary)>

<!ELEMENT URL (#PCDATA)>

<!ELEMENT Title (#PCDATA)>

<!ELEMENT Category(#PCDATA)>

<!ELEMENT Content (#PCDATA)>

<!ELEMENT Summary(#PCDATA)>

4 从HTML文档中提取数据

从HTML文档中提取数据的过程其实就是对HTML文件的内容进行整理和过滤的过程，根据过滤规则的不同，可以分为静态过滤和动态过滤^[9]。这里采用两种过滤结合的方式进行数据提取，过程如图1。

图1数据提取过程

4.1 过滤页面

从HTML文档提取数据之前Web文档，应先过滤一个网站的门户页面和索引页面，这些页面中包含了大量的链接和标题信息，对于使用挖掘的用户而言，在通过链接进入这些页面之后，不但需要在大量的文本和图像内容中找到需要的那一项，而且必须经过多次页面跳转之后，才有可能找到真正需要的数据。对于某一个有具体要求的挖掘操作而言，这样的页面实际上是无意义的。通过页面特征的分析可以比较准确地过滤这一类型的Web页面。

4.2 标题

标题（Title）通常是对网页内容的最精炼的概括。但是，也存在较多的例外情况，如有些网站，为了提高被搜索引擎检索到的概率，往往在标题中写入所有与该网站有关或无关的信息，网页中的内容则相差甚远；另外，对于一些由网络应用程序自动生成的页面（在检索时得到的网页格式仍然是HTML文档），其标题信息往往是无意义的，如：“New Page 1”，或者一个固定的句子，如“图书信息”，这种标题对于Web数据挖掘是没有任何意义的。对于如“New Page 1”的情况，可以把它列入停止词表，也就是认为该页没有标题，以免对后续的工作造成干扰。而对于其他两种情况，只有借助专家数据或经验数据的方法，由人工定义的停止词表进行筛选。

4.3 子标题

特定的网站往往有固定的格式，如格式化的子标题信息，这些信息在进行内容挖掘的时候可以作为初步分类的基础。作为比较常见的网页设计方法，特定的标记信息用不同的图片进行表示，也就是说，这些信息是存在于<img>标记之中，在大多数情况下， <img>标记和其他一些格式标记，如<br>、<font>等，在进行挖掘之初就被当作无关信息删除了Web文档，对页面的分析仅仅对文本进行。子标题信息往往处在一个HTML文件的开始部分，由若干张图片组成，通过对一个网站的门户页面以及其他内容页面进行比较，可以比较容易地确定子标题图片的数量，然后对子标题图片进行编号，将这种无意义的辅助编号信息添加到XML文件的<Type></Type>元素之间，作为进一步分类参考。

4.4 页面内容

Web页面中的信息不仅包括文本，也包括图片（背景图片、插入的位图以及GIF动画等）、声音，如背景音乐、Flash动画，可执行脚本（显示日期、统计访问量、浮动窗格和捕获鼠标操作和用户输入等）、Java小程序和一些格式信息，如页面的视觉特征（颜色、字体大小、字体粗细等）和页面的排版特征（段落的长短、标题的位置、段间距等），这些信息大部分对进行Web内容挖掘没有帮助，应当看作干扰信息过滤掉。

同一个网站中的HTML文档往往会遵循统一的布局规则，通过这些规则，可以把网页的内容划分成不同的块^[10]，借助网页的分块特性，对网页的内容进行预分类，如利用索引页面中的<table>标记分割的链接情况，可以每个<tr></tr>之间链接所指向的页面看作一个小的分类，为进一步挖掘操作提供参考。

HTML是一种语法要求不严格的语言，在一个Web页面中，包含大量的HTML语法错误，在提取Web页面的内容之前，需要先对其中的语法错误进行处理。采用W3C提供的HTML词法分析器可以进行HTML标志名和标志属性的提取。该词法分析器可以分为五个状态:初始状态、标记开始状态、文本状态、标记结束状态和结束状态。每个状态分别调用相应的触发函数:InitLib()、beginElement()、addText()、endElement()、closeLib()会计毕业论文范文。其中在beginElement()函数里便可以取得当前的标记名及其该标记的属性。

4.5 文本摘要

作为内容挖掘中很重要的一项，摘要可以使文档的核心内容更加突出。以摘要作为Web文档的辅助信息能提高挖掘的效率。

通常采用的基于统计的文本摘要自动生成方法的基本思想是把原文中与主题密切相关的句子筛选出来，这样的句子往往位于比较特殊的位置或者含有较强的提示，含有较多的特征项。以下是一个比较常用的句子权值函数^[11]。

（1）

其中，表示句子的权值函数，表示特征项的权值函数，表示句子的长度，表示句子所包含的分句个数，表示比例因子。需要说明的是，为提高挖掘的算法效率而进行的文本摘要Web文档，其结果对人而言往往是混乱的，难以找到具体的语言含义。但是对于Web内容挖掘的某些算法（如基于向量空间模型的算法），则可以有效地提高算法的效率。

Web文档经过预处理之后，就可以通过XML查询语言，如Xpath，Xquary等对得到的XML文件进行数据挖掘处理了，文献^[12]将XML索引技术分为两大类：节点记录类索引和结构摘要类索引，深入讨论了XML索引技术的研究现状。根据这些研究，可以得到更加有效的处理XML文件的方式。

5 结论

通过使用XML作为中间语言，对现有的非结构化的Web文档进行过滤和整理，有利于实现对Web上的各种各样异构数据进行统一操作。在数据过滤和处理的过程中，根据Web文档的标题和分块特征，对Web文档进行预分类操作，可以提高进一步分类、聚类、关联规则等数据挖掘操作的效率。通过摘要，进一步从过滤后的文档中提取主干信息，以提高挖掘的效率。当然，由于Web文档的多样性，特定的数据挖掘任务处理的办法也应不尽相同，增加中间层将会增大系统的开销和降低挖掘的时效性，另外，如何对Web中的大量非文本数据进行有效挖掘也有待进一步的研究。

参考文献：
[1]Anne H.H. Ngu、Masaru Kitsuregawa、Erich J. Neuhold、et al，WISE-2005 Tutorial: Web ContentMining，ComputerScience，Vol 3806，2005，763-763
[2]何晓兵，本体指导下的网络文献信息内容挖掘模型，图书情报工作，2010（24），45-49
[3]董慧、唐敏，数据挖掘及其在网络信息检索中的应用，情报杂质，2010（S1），153-156
[4]于春燕、胡学钢，Web中的行情数据获取与预测研究，计算机工程与应用，2009（20），202-204
[5]姜霞、张晓伟，基于XML的Web挖掘技术研究，电脑知识与技术（学术交流），2005（7），79-81
[6]何月顺、汤彬、丁秋林，基于Web的数据挖掘技术的应用研究，计算机系统应用，2005 （5），59-63
[7]姚磊岳，XML数据到一般关系数据库数据的转换，洪都科技，2005（1），18-23
[8]章义、黎峰，基于XML的数据库存储访问技术，计算机工程与设计，2005（1），208-212
[9]李红、谭汉松，基于信息过滤后的Web内容挖掘，计算机工程与应用，2003（30），186-187
[10]于满泉、陈铁睿、许洪波，基于分块的网页信息解析器的研究与设计，计算机应用，2005（4），974-976
[11]史忠植，知识发现，清华大学出版社，2002.1
[12]孔令波，唐世渭，杨冬青、王腾蛟、高军，XML数据索引技术，软件学报，2005（12），2063-2079

查看相关论文专题：

	加入收藏打印本文
上一篇论文：谈谈如何在Delphi7中控制Excel实现信封的套打
下一篇论文：一种基于层次栈的XML数据小枝查询算法研究_层次树

毕业论文分类

行政管理毕业论文	工商管理毕业论文
护理毕业论文	会计毕业论文
会计专业毕业论文	英语专业毕业论文
大学毕业论文	硕士毕业论文
计算机毕业论文	市场营销毕业论文
物流管理毕业论文	法学毕业论文

相关计算机毕业论文

最新计算机毕业论文

读者推荐的计算机毕业论文