数据挖掘理论及挖掘过程浅析(图文)

时间：2011-04-24 作者：秩名

论文导读：数据挖掘（Datamining简称DM），可以说是数据库中的知识发现，它是指从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在的，有用的信息和知识的过程。从数据库中发现知识（KDD）一词首先出现在1989年举行的第一届国际联合人工智能学术会议上，到目前为止，美国人工智能协会主办的KDD国际研讨会已经召开了多次，规模由原来的专题讨论发展到国际学术大会，研究重点也逐渐从发现方法转向应用系统，注意多种发现策略和技术的集成，以及多种学科之间的相互渗透，数据挖掘与知识发现已成为当前国际上的一个研究热点。根据数据挖掘的目标、功能及数据挖掘算法，按指定方法组织数据，根据已了解的知识的出限定变量，转换数据类型并且映射数据到易于找到解的特征空间。
关键词：数据挖掘，知识发现，挖掘算法，挖掘过程

一、数据挖掘的概念

1．1数据挖掘的定义

数据挖掘（Datamining 简称DM），可以说是数据库中的知识发现，它是指从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在的，有用的信息和知识的过程。它综合利用了统计学方法，模糊识别技术、人工智能方法，人工神经网络技术等相关技术，并对各行各业的生产数据，管理数据和经营数据进行处理、组织、分析、综合和解释，以期望从这些数据中挖掘并揭示出客观规律，反映内在联系和预测发展趋势的知识，例如医学研究人员希望从已有的成千上万份病历中找出患有某种疾病的病人的共同特征，从而为治愈这种疾病提供一些帮助。

从数据库中发现知识（KDD）一词首先出现在1989年举行的第一届国际联合人工智能学术会议上，到目前为止，美国人工智能协会主办的KDD国际研讨会已经召开了多次，规模由原来的专题讨论发展到国际学术大会，研究重点也逐渐从发现方法转向应用系统，注意多种发现策略和技术的集成，以及多种学科之间的相互渗透，数据挖掘与知识发现已成为当前国际上的一个研究热点。

1．2 数据挖掘的对象

数据挖掘常见的挖掘对象有：关系（Relational）数据库、事务(Transactional)数据库、面向对象（Objected-Oriented）数据库、主动（Active）数据库、空间（Spatial）数据库、时态（Temporal）数据库、文本（Textual）数据库、多媒体（Multi-Media）数据库、异质（Heterogeneous）数据库以及Web数据库等。

知识发现（KDD）被认为是从数据中发现有用知识的整个过程，数据挖掘只是数据库中知识发现的一个步骤，但又是最重要的一步，它用专门算法从数据中抽取模式，原始数据可以是结构化的，如关系型数据库中的数据，也可以是非结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。

二、数据挖掘的意义

数据挖掘与传统的数据分析（如查询报表，联机应用分析）的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息，发现知识，数据挖掘所得到的信息应具有先未知，有效和应用三个特征。

先前未知的信息是指该信息是预先未曾预料到的，即数据挖掘是要发现那些不能靠直觉发现的信息知识，甚至是违背直觉的信息或知识，数据挖掘通过预测未来趋势及行为，做出前摄的，基于知识的决策。

三、数据挖掘的分类：

数据挖掘的任务就是从数据集中发现模式，模式有很多种，按功能分为两大类：（1）描述性挖掘，主要刻画数据库中数据的一般特性；（2）预测性挖掘，主要任务在当前数据上进行推断，以进行预测，在实际应用中，往往根据模式的实际作用及数据挖掘的任务分为以下几类：

（1）关联分析（associationanalysis）：关联分析以发现关联规则（association rules）为目标，关联分析的典型例子是购物篮分析，描述顾客的购买行为（哪些商品常在一起购买）。例如“啤酒和尿布的故事”。

（2）分类（classification）：首先分析一个训练样本数据集，找到一组能够描述数据集合典型特征的模型（或函数），然后使用这个模型分类识别未知数据的归属或类别，即将未知事例映射到某种离散类别之一，分类的方法很多，主要有决策树法、贝叶斯法、神经网络法，近邻学习或基于事例的学习等方法。例如，利用教师的相关数据（如职称、学历教龄等）以及学生对教师的教学评估结果构建分类模型（如决策数），可用于预测某一位新教师未来教学评估的结果，相关知识可用于指导学校人事部门的教师引进工作。

（3）聚类分析（clusteringanalysis）：聚类分析所分析处理的数据对象事先无确定的类别属性，聚类分析的基本原则是：各积聚类（clusters）内部数据对象间的相似度最大化，各聚类对象间的相似度最小化，按照选定的度量数据对象之间相似度的计算公式，遵循聚类分析的基本原则，将数据对象划分成为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大，聚类分析主要应用于模式识别，数据分析，图像处理以及市场研究。

（4）序列分析（sequenceanalysis）：序列分析是通过分析序列数据库寻找一定的规则和有趣的特征，广泛应用于对时间序列数据的分析，应用领域涉及经济学、生物医学、生态学、大气和海洋等。控制工程及信号处理，例如，web日志中的数据是典型的时间序列数据，它记录了用户与站点的交互信息及时间，对于商业网站而言，基于这些数据的挖掘对于其决策具有实用价值。

（5）孤立点分析：数据库中可能包含这样一些数据对象，它们与数据的一般行为或模型偏离很大，这些对象就是孤立点，大部分数据挖掘方法将孤立点视为噪声或异常而丢弃；而在一些应用中（如信用卡欺诈），罕见的事件可能比正常出现的更有趣，在市场分析中，可用于确定极低或极高收入的客户的消费行为。

四、数据挖掘的处理过程

数据挖掘来源于知识发现（KDD）,是数据库发展和人工智能技术相结合的产物,因而数据挖掘包括KDD的全过程,类似于通常的一个开采过程,整个过程分为三个阶段来完成：数据准备阶段、数据挖掘阶段和结果显示阶段。

数据挖掘环境可示意如下图：

图1-1 数据挖掘环境框图

按工作流程包括以下几个步骤：

1、问题定义：对应用领域知识进行充分的理解和分析，明确挖掘对象和目标。

2、数据准备：

（1）搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。

（2）数据净化和预处理包括去噪声，填补丢失的域，删除无效数据等。

（3）判断数据挖掘的功能类型，数据挖掘的功能类型分为验证型和发现型。验证型是指由用户首先提出假设；发现型是指用数据挖掘工具从数据中发现用户未知的事实、趋势、分类等。

（4）选择适宜的数据挖掘的算法。根据数据功能的类型和数据的特点选择相应的算法。常用的算法有人工神经元网络、决策树算法、集合论算法和遗传学算法等。

（5）进行数据转换。根据数据挖掘的目标、功能及数据挖掘算法，按指定方法组织数据，根据已了解的知识的出限定变量，转换数据类型并且映射数据到易于找到解的特征空间。

3、数据挖掘。在净化和转换过的数据集上进行数据挖掘。

4、结果的分析和同化。输出挖掘结果对数据挖掘出的结果进行解释和评价，转换成为能够最终被用户理解的知识。综合分析把已得到的知识和已有的知识进行综合，检查和处理它们之间的冲突，通过简明直观的方法把最终结果报告给用户，并且评价整个处理流程的性能。

五、结语

数据挖掘是目前国际上数据库和信息决策领域的前沿研究方向之一，也是当前计算机领域的一大热点，其研究的重点也逐渐从理论转移到了系统应用，随着技术的不断成熟，未来的应用领域也会更加广泛。只有更加深入的研究透了数据挖掘相关的理论，才能使其对未来社会的发展起到更积极的作用。

参考文献：
[1]朱明，数据挖掘[M]，中国科学技术大学出版社，2002
[2]乔永生，数据挖掘的探讨[J]，科技情报开发与经济，2006.16
[3](加)JiaweiHan, Micheline Kamber 著.范明孟小峰等译.数据挖掘-概念与技术.北京:机械工业出版社.2001.15
[4]黎敏.数据挖掘算法研究与应用.大连:大连理工大学2004

查看相关论文专题：

	加入收藏打印本文
上一篇论文：手机有声图书点播系统的设计
下一篇论文：数据挖掘理论与技术研究

科技论文分类

相关计算机论文

最新计算机论文

读者推荐的计算机论文