数据挖掘理论与技术研究

时间：2011-04-24 作者：秩名

神经网络具有容错能力,并且擅长模式识别和趋势预测。在有限知识的情况下,人工神经网络算法经常被用于数据模型的构造。神经网络可以成功地应用于图像挖掘的分类中。例如对医学X光片、传感图像等进行分类。
(3) 决策树
是通过一系列规则对数据进行分类的过程。它以信息论中的信息增益原理为基础寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分枝;在每个分枝中集中重复建树的下层结点和分枝的过程,即可建立决策树。它用树形结构来表示决策集合,主要特点是使用了决策树图,因而整个决策分析过程具有直观、简洁、清晰等优点。典型的决策树方法有分类回归树。
(4) 遗传算法
遗传算法是一种新的优化技术,基于生物进化的概念设计了一系列的过程来达到优化的目的。它模拟生物进化过程,由选择、交叉、突变三个基本算子组成。遗传算法已在优化计算、分类等方面发挥了显著作用。
(5) 可视化技术采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清晰。
另外,还有规则归纳,公式发现,模糊集合,统计学等方法。
2.3数据挖掘的过程
首先选择和准备待挖掘的数据,对待挖掘数据进行预处理。这个阶段可分3 步:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高DM的质量。预处理是为了克服目前DM 工具的局限性,主要是通过净化、减缩、转换、群聚、分类等手段降低数据的复杂性,并且重新加以组织。其次研究开发一种或多种DM 工具,如IBM 的IDM 和SGI的Mine Set 等。第三用DM工具来发现未知的知识,运用所发现的知识于决策支持,达到事业和企业单位的特定目标。这个阶段进行实际的DM,要先决定如何产生假设,是发现型(discovery- driven) 的DM,还是验证型(verification- driven) DM;弄清用户要求,从数据库中提取相关的数据,把最有价值的信息区分出来,并且通过决策支持工具提交决策者。还要对信息进行过滤处理,主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。如果决策者不满意,需要重复以上DM 过程。DM的基本过程如图2。

图2 　DM的基本过程
3.数据挖掘技术的研究
数据挖掘的核心技术是进行数据挖掘所采用的算法。数据挖掘的任务是从数据对象中获得数据的模式/模型, 找出容易理解的规则和关系。这些规则用于预测未来趋势、评价用户、评估风险或对给定的数据进行概念性的描述。数据挖掘不是一个完全自动化的过程, 需要做准备工作, 其后要考虑数据有关的因素和预期目的, 然后用最佳的数据挖掘方法进行运算。这些算法包括: 人工神经网络、决策树、遗传算法、近邻算法等。对数据挖掘的理论研究主要在以下六个方面:OLAP 技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。
3.1 OLAP 技术
联机分析处理(On2LineAnalytical Processing ,OLAP) 是关系数据库之父E. F. Codd 博士在1993 年提出的。OLAP 可以在使用多维数据模型的数据仓库或数据集市上进行,使用数据立方体结构,OLAP 操作可以有效地实现。OLAP 技术主要是应用隐含在数据里的领域背景知识对数据进行操作,为用户在不同的抽象层上提供数据。OLAP 技术一般都是集成在数据仓库中实现的。
3.2面向属性的归纳方法
1991年,Jiawei Han等提出了面向属性的归纳方法(Attribute2Oriented ,AO),这是一种有效的、完整的知识发现算法,算法的一个关键就是攀升属性所对应的概念层次树,把原始数据集的数据泛化到用户感兴趣的概念层上,减少数据集的大小,从而降低知识发现过程的计算复杂度。
3.3关联规则
关联规则的挖掘最早是由R. Agrawal 等人于1993年提出。在关联规则算法的研究中,生成所有的频繁项目集是核心问题。关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法,由单层的关联规则扩展为多层次关联规则的研究,提出了基于多维标度关联规则算法,其他类型的关联规则如借助正态模糊数模型,软化数量属性的划分边界,生成语言值关联规则,引入正态云模型来替代对属性论域的划分,提出了挖掘正态云关联规则的方法,基于关联规则的不足,还提出了转移规则及其算法。另外对于关联规则挖掘指导思想也出现了变化,提出了概念指导的关联规则的挖掘算法和基于概念格的关联规则的提取算法。
3.4分类和预测
分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要的分类方法有:决策树归纳分类法、贝叶斯分类法、后向传播分类法等。国内的分类方法研究主要集中在以下内容:1)研究贝叶斯网络在分类方法中的应用。2) 结合其他理论进行算法研究
3.5聚类
聚类是一个活跃的研究领域,聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象则差别较大,聚类算法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。聚类分析可以用作独立的数据挖掘工具,来获得对数据分布的了解,也可以作为其它数据挖掘算法的预处理步骤。
3.6与数据仓库的集成技术研究
目前比较通用的对数据仓库的定义是W. H.Inmon 在1996 年提出的,他认为数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。数据仓库具有不同于数据库的新特点,并对数据挖掘技术提出了更高的要求,数据挖掘技术要充分发挥潜力,就必须和数据仓库的发展结合起来。

2/3 首页上一页 1 2 3 下一页尾页

查看相关论文专题：

	加入收藏打印本文
上一篇论文：数据挖掘理论及挖掘过程浅析(图文)
下一篇论文：数字化校园中门户平台的关键技术分析与实现

科技论文分类

相关计算机论文

最新计算机论文

读者推荐的计算机论文