论文导读:为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术。这种技术称为数据挖掘。提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。
关键词:数据挖掘,信息分析,提取,知识
社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种技术称为数据挖掘。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
一.数据挖掘的对象
数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。论文检测。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。
二.数据挖掘的任务
数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。
1.分类。分类就是按照一定的标准把数据对象划归成不同类别的过程。
2.预测。预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。
3.时间序列模式。时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。
4.聚类分析。聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。
5.关联分析预测。关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。
6.偏差分析。偏差分析就是通过对数据库中的孤立点数据进行分析,寻找有价值和意义的信息。
三.数据挖掘的过程
数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。
1.数据准备。数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除数据噪声和挖掘主题明显无关的数据;其次将来自多数据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据准备。数据准备是数据挖掘的第一步,它是整个过程中很重要的一步,数据准备是否合适将影响到数据挖掘的效率、准确率以及最终模式的有效性。
2.数据挖掘。数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。
3.模式评估。由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反,因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。论文检测。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取出更有效的知识。
4.巩固知识。完成对知识的一致性检查,确保发现的知识与已知可信的知识不发生抵触。
5.运用知识。发现知识的目的是运用。运用知识有两种方法:一种是直接运用知识来决策;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。
四.数据挖掘的常用方法
当今先进的数据挖掘工具都提供了多种可供选择的数据挖掘算法,这是因为一种算法不可能完成所有不同类型的数据挖掘任务,每一种数据挖掘算法都有各自的特点和应用领域,下面介绍几种常用的数据挖掘方法。
1.决策树方法。决策树是一种常用于预测模型的算法,它通过一系列规则将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,易于理解、精度较高,特别适合大规模的数据处理,在知识发现系统中应用较广。它的主要缺点是很难基于多个变量组合发现规则。在数据挖掘中,决策树方法主要用于分类。
2.神经网络方法。神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身结构来表达输入和输出的关联知识。神经网络的缺点是结构复杂、可解释性差、训练时间长等。但它比较容易解决具有上百个参数的问题,并且在处理噪声数据方面具有高承受能力和低错误率、自组织自适应性、并行处理、分布存储和高度容错等优点,这些特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。神经网络主要用于数据挖掘中分类和回归两类问题的研究。
3.粗糙集方法。粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗糙集的数据挖掘奠定了坚实的基础。粗糙集理论能够在缺少先验知识的情况下,对数据进行分类处理。在该方法中知识是以信息系统的形式表示的,先对信息系统进行归约,在从经过归约后的知识库抽取得到更有价值、更准确的一系列规则。因此,基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简,得到一种属性归约集的过程,最后抽取规则。
4.遗传算法。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。论文检测。数据挖掘是从大量数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用的信息。因此,许多数据挖掘问题可以看成是搜索问题,数据库或者数据仓库为搜索空间,挖掘算法是搜索策略。应用遗传算法在数据库中进行搜索,对随机产生的一组规则进行进化,直到数据库能被该组规则覆盖,就可以挖掘出隐含在数据库中的规则。
5.模糊集方法。模糊集是基于模糊数学的一种处理方法,即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集和粗糙集都是针对信息和数据的模糊性的处理方法,但两者存在不同,模糊集强调集合本身的含混性,粗糙集强调的是集合对象的不可分辨性;模糊集研究的是属于同一类的不同对象对集合的隶属关系,重在隶属程度。因此,粗糙集常用于数据挖掘中的聚类问题研究。粗糙集研究的是不同类别对象组成的集合之间的关系,重在分类。因此,粗糙集常用于数据挖掘中的分类问题的研究。
6.关联分析。关联分析的目的是寻找隐藏在数据库中的关联规则。寻找关联规则即在当前记录的各个特征间寻找内在的联系。实现关联分析的技术主要是统计学中的置信度和支持度分析。支持度和置信度是描述连接分析的两个重要概念,前者用于衡量连接分析在整个数据集中的统计重要性,后者用于衡量连接分析的可信程度。一般来说,只有支持度和置信度均较高的关联规则才可能是用户感兴趣的、有用的规则。
五.数据挖掘的应用
数据挖掘技术在各个需要进行信息分析的领域得到十分广泛的应用。它可以带来显著的经济效益,不仅可以控制成本,也可以给企业带来更多效益。
在金融业,可以通过信用卡历史数据的分析,判断哪些人有风险,哪些人没有;在超市,可以通过对超市交易信息分析,安排货价货物摆设,以提高销售收入;在保险业,可以通过对保险公司客户记录的分析,来判定哪些客户是花费昂贵的对象;在学校,可以通过分析学校学生课程及成绩等信息,来判断课程之间的关系。此外,在医学中,可以利用数据挖掘技术对疾病发作前后症状的分析,来对病症进行诊断;在体育运动中,利用数据挖掘技术对对抗性强的积极运动进行分析,发现对方弱点,制定有效的战术。
六.结束语
数据挖掘技术作为一个多学科交叉的新兴学科,在研究领域和商业领域得到了越来越多的应用,尤其是在市场营销中取得了成功。企业每天都有海量数据产生,利用数据挖掘技术可以从这些数据信息中发现对企业有益的知识,给企业带来经济效益,这也将促使数据挖掘技术不停的发展进步。
参考文献
[1] 苏新宁,杨建林,江念南,栗湘.数据仓库和数据挖掘[M]. 北京:清华大学出版社,2006.
[2] Jiawei Han,Micheline Kamber著.数据挖掘:概念与技术[M].范明,孟小峰,等译.北京:机械工业出版社,2001.
[3]郑纬民,黄刚.数据挖掘纵览[EB/OL]. http://www2.ccw.com.cn/99/9920/9920c01.asp,1999.
|