欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

数据挖掘理论与技术研究

时间:2011-04-24  作者:秩名

论文导读:数据挖掘正是这样一种技术, 它可以从大量的数据中抽取潜在的有用信息和模式, 来帮助我们进行科学的决策。数据仓库(Data Warehouse ,简称DW) 是一项基于数据管理和运用的综合性技术和解决方案。DM 是决策支持的一个过程,是决策支持的重要组成部分,是数据分析的发现模式,它主要基于人工智能,机器学习,统计学等技术,高度自动化地分析企业原有数据,从而发掘出意料之外的或未知的关系、模式和联系,预测客户的行为,帮助企业决策者作出正确的决策。
关键词:数据挖掘,数据仓库,决策支持
0.引言
随着数据库技术的广泛应用, 人们越来越感到“数据丰富”而知识贫乏。面对庞大的数据资源, 人们迫切需要能够自动处理数据资源并能将其转化为知识的自动工具。数据挖掘正是这样一种技术, 它可以从大量的数据中抽取潜在的有用信息和模式, 来帮助我们进行科学的决策。
1.数据挖掘的定义
数据挖掘,也可以称为数据库中的知识发现(Knowledge Discover Database ,KDD) ,是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。数据挖掘(Data Mining ,简称DM) 比较公认的定义是W. J . Frawley、G. Piatetsky、Shapiro 等人提出的:就是从大型数据库的数据中提取人们感兴趣的知识。是利用一些方法和模型,通过对数据进行分析,探索出这些数据中不明显、事先不知道和有使用潜力的信息。对于一个企业领导来说,如果不仅仅满足于统计报表,那么DM 就是必要的。近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,DM 能提供非常重要的,对决策者可能是完全崭新的决策信息。数据挖掘能提供的数据的模式有以下几类:
(1) 概念描述概念是对一个包含大量数据的数据集合总体情况的概括性描述。用户通过对数据库中细节数据的“数据泛化”来用高层次的抽象名称来描述数据库所反映的定性概念。还可以通过对不同的数据库进行对比泛化, 从而得出不同数据库间相对的概念。
(2) 关联规则关联规则的挖掘就是从大量的数据中发现有价值的各项条目间存在的内在联系。从而利用这些关联规则进行决策。如从商业贸易记录中找出不同商品销售情况的关联, 发现消费者的消费爱好, 改变销售模式以迎合消费者, 提高销售额。
(3) 分类与预测分类指找出能够反映某一数据集合的特征的模型或函数, 以便将未知的事例反映到某种离散的类别。但对于连续的数值预测则成为“预测”。
(4) 聚类分析聚类是一种特殊的分类, 与分类分析方法不同, 聚类分析是在预先不知道预划定类的情况下, 根据信息相似度原则进行信息集聚的一种方法。
(5) 异类分析对于数据库中那些不属于分类预测或聚类分析所获得的模型的数据对象就称为异类。例如: 可以根据信用卡的使用地点、购买商品的类型来发现属于信用卡诈骗的购买行为( 异类数据) 。
(6) 演化分析数据对象的模型会随着时间的变化而改变,而对这一变化趋势的描述就称为数据演化分析。例如: 利用演化分析方法可对股票的交易数据进行时序分析, 获得股票市场的股票演化规律。
2.数据挖掘的理论框架
2.1基于数据仓库的数据挖掘技术
数据仓库(Data Warehouse ,简称DW) 是一项基于数据管理和运用的综合性技术和解决方案。DW作为一种新型的数据存储地,为DM 提供了新的支持平台。DM 是决策支持的一个过程,是决策支持的重要组成部分,是数据分析的发现模式,它主要基于人工智能,机器学习,统计学等技术,高度自动化地分析企业原有数据,从而发掘出意料之外的或未知的关系、模式和联系,预测客户的行为,帮助企业决策者作出正确的决策。如图1 描述了数据仓库环境中的DM的体系结构。DM要发挥作用,首先必须在企业中实现DW,同时还必须具备实施DM的技术和工具,只有这样才能具体实施DM。

图1  数据仓库环境中的DM的体系结构
DM的特点是处理的数据规模十分庞大; 查询是决策者提出的随机查询,需要靠DM技术寻找可能感兴趣的数据; 在一些应用中,由于数据不断变化,因此要求DM 能快速做出反应,以提高决策支持。DM即要发现潜在规则,还要管理和维护规则。DM 中规则的发现主要基于大样本的统计规律,发现的规律不必适用于所有数据,当达到某一阈值时便可以认为有此规律。DM 技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC 省电话公司要求加拿大Simon Fraser 大学KDD 研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。
2.2数据挖掘的方法
(1) 关联规则
关联规则是够揭示大型数据集合中有趣的趋势、模式和规则,形式为“A1 ∧A2 ∧?Am → B1 ∧B2 ∧?Bn”其中Ai ( i = 1 ,2 , ?, m) ,Bj ( j = 1 ,2 ,?, n) 是数据库中的数据项之间的关联即根据一个事务中某些项的出现,可以推导出另一些项在同一事务中也出现。是搜索业务系统中的所有细节和事务,从中寻找出重复概率很高的模式。关联分析是在给定一组“项目类别”和一些记录集合的条件下,通过分析记录集合,计算最小值信度,从而推导出各项目之间的相关性。事务数据库中的关联挖掘是大型数据库中关联规则挖掘的典型情况。在这种情况下,对每个组成项都有具体明确的数值,一个客户的事务(交易) 将包括这些项的子集。
(2) 神经网络
神经网络是通过模拟人脑反复学习技术来工作的。对给出的样本数据,神经网络通过类似人类记忆过程的方式学习数据中的统计规律,归纳出能描述样本特征的数据模型,然后用已学会的数据模型分类新给出的数据。神经网络已经很好地运用于辨别贷款诈骗,图象识别,判断健康状况,分析、理解股票和债券的异常波动等领域。一个神经网络是大型并行分布的处理器,它由很多简单的处理单元组成。

查看相关论文专题
加入收藏  打印本文
上一篇论文:数据挖掘理论及挖掘过程浅析(图文)
下一篇论文:数字化校园中门户平台的关键技术分析与实现
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
最新计算机论文
读者推荐的计算机论文