论文导读:2000年以后,国内外把XML和数据挖掘结合起来的研究逐渐增多。由于XML广泛应用于Web上,因此对基于XML的Web数据挖掘的研究越来越受到重视。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。
关键词:数据挖掘,XML,关联规则,DTD
0.引言
2000年以后,国内外把XML和数据挖掘结合起来的研究逐渐增多。发表论文。由于XML广泛应用于Web上,因此对基于XML的Web数据挖掘的研究越来越受到重视。研究的重点包括:XML表达的Web数据模型,基于Web的半结构化数据存储模型,XML数据查询技术等相关问题。目前对基于XML的Web数据挖掘研究大概可以分为两大流派;一是以美国为首,包括日本,新加波等国,以传统数据库技术为主要技术支撑;另一个是以德国,法国为首,包括英国等,重点研究如何对整个XML文档进行有效的管理。
1.XML的概述
XML的全称为可扩展标记语言,是由互联网协会(W3C)于1998年提出和设计的,是由标准通用标一记语言SGML中派生而来的。XML正在逐步成为第一代Web数据描述和数据交换的标准。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。其中,DTD规定了XML文件的逻辑结构;XSL用来描述文档如何显示,使得数据与其表现形式相互独立;XLL功能更加强大,使用XLL可以多方向链接,而且链接不再局限于页面层级。
XML克服了HTML的种种不足,将互联网上的文档规范化,赋予标记一定的含义,并保留了HTML所具有的简洁、适于传输和浏览的优点,集SGML和HTML的优势于一身,成为下一代互联网发展的核心。XML具备以下可扩展性、结构性、平台独立性、自描述性、灵活性和规范、简单性等优点。
2.数据挖掘概述
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,简单地说,提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程。数据挖掘是从大量数据中提取或“挖掘”知识。
所谓知识是指概念、规则、模式、规律和约束等。知识。人们把数据看作是形成知识的源泉,通过对数据进行组织、分析、处理,然后应用数据挖掘技术得到人们感兴趣的知识。原始数据可以来自于关系数据库、数据仓库、事务数据库、空间数据库、面向对象数据库,也可以来自于文本数据源、多媒体数据,以及分布在Web上的异构数据源。可以使用不同的方法发现知识,如数学的和非数学的方法,演绛的和归纳的方法等。发现的知识可用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门汇聚了不同领域的交叉学科,包括数据库技术、统计学、机器学习、高性能计算、模式识别、数据可视化、信息检索、图像与信号处理和空间数据分析等。数据挖掘技术把人们对数据的低层应用,如简单查询等,提升到从数据中挖掘知识,对所得知识进行高层运用。因此,它是一种具有强大实际作用和前途的学科。
3.Web数据挖掘概述
Web挖掘是一项综合技术,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,项目开发也各有其侧重点。我们从更为一般的角度出发,对Web挖掘作如下定义:Web挖掘是指从大量Web文档的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射£:C-P。
Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但是,Web挖掘与传统的数据挖掘相比有许多独特之处。首先Web挖掘的对象是大量、异质、分布的Web文档。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义。而传统数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。
Web数据挖掘是从WWW资源上挖掘信息的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。目前,在该研究领域中,Web挖掘一般可以分为三类,即web内容挖掘、Web结构挖掘和Web数据的使用挖掘。
4.基于XML的Web数据挖掘技术
基于XML的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确的查询与模型抽取。发表论文。
面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。发表论文。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。
基于XML的Web挖掘分为XML结构上的挖掘和XML内容上的挖掘。XML是半结构化的数据,元素的标记及其嵌套关系表示了XML文档的结构。XML结构的挖掘关键是对DTD或Schema的挖掘,在实际操作过程中是将每一个XML文档的结构看作是一棵有根、有序的标一记树,在此基础上对树的挖掘。结构上的挖掘只和XML文档结构内部有关,可依据知识发现得到XML部的结构信息(文档类型定义XML文档,应是结构良好的DTD),引入对有效的XML文档的分析。XML内容上的挖掘是指对XML文档中起始标记和终止标记之间的文本进行挖掘。XML内容的挖掘本质上是对标记的值的挖掘。
5.基于XML的web数据挖掘的系统结构
系统在总体上分为三层。底层是XML数据集成层,用XML作为工具将相关数据进行集成、整合、抽取,形成一个有一定结构信息的原始XML数据集,作为中间层数据预处理层的数据来源;在中间层中对XML数据集进行数据选择、清理和规范化,产生结构化程度更高的具有丰富语义的XML数据集,作为顶层即数据挖掘应用层的数据源;在数据挖掘应用层中有一些具体的数据挖掘应用需要将结果通过报表、即时查询、统计图等形式向决策人员展示。如图1。

图1基于XML的web数据挖掘的系统结构
系统要解决的问题:
(1)异构数据集成问题:基于XML的数据挖掘首先要解决异构数据的集成问题。基于XML的数据挖掘不能仅仅从XML文档中直接获取数据,还必须对大量的关系数据库记录、XML文档、文本文档和EXCEL文档等进行数据挖掘。必须
利用XML建立一个模型来描述各种各样的数据,提供给上层应用一个统一的视图,从而有可能从庞大的数据资源中获取所需的东西。
(2)半结构化信息的预处理:和传统数据挖掘的过程一样,Web数据挖掘首先也要将得到的数据进行数据清洗与数据转换,即为半结构化的预处理过程。先要把不同结构的数据进行清洗,去除噪声。然后基于XML设计,将不同结构的数据转换为XML文档。
(3)对XML格式数据进行挖掘:数据挖掘应用层要解决基于XML数据集的知识发现的问题,经过预处理后XML数据具有较高的结构化程度,但是它既不同于关系型数据库、数据仓库里的结构化数据,也不同于完全无给构。因此对这些数据的挖掘要综合和改变现有的针对结构化数据挖掘方法来进行。
6.结论
随着Internet的迅速发展,越来越多的数据库和信息系统不断加入网络,使得网络上存在大量的数据,面对如此复杂的Web数据,如何从复杂的网络数据中发掘所需信息己经成为人们所关注的一个重要问题。由于XML具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,使用户能够对Web信息实施精确查询与模型抽取,因此将XML与Web数据挖掘相结合进行研究逐渐成为了数据挖掘领域内的一个新热点。
参考文献
[1]刘晓鹏,邢长征.基于WEB文本数据挖掘的研究.计算机与数字工程,2005(9)76-78.
[2]郑荣茂.基于XML的WEB数据挖掘[J].韶关学院学报(自然科学版),2004.25(9):15-18.
[3]康晓兵,张二虎,吴学毅.一种XMLSChema模式到关系模式的映射算法[J]计算机应用,2004,24(5):106-108.
[4]杨彬.利用XML技术进行WEB内容挖掘.计算机与现代化,2005(11):48-50
[5]金玉玲,陈培久,裘江南.XQUERY—一种全新的XML查询语言.情报学报2002.8:445-449,
|