欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

关联规则挖掘算法综述

时间:2011-04-24  作者:秩名
②递减的最小支持度。每个层次都有不同的最小支持度阈值,较低层次的最小支持度相对较小。可用的搜索策略:
A、逐层独立:这是完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管它的父结点是否是频繁的。
B、层交叉用单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父结点是频繁的。
C、层交叉用k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的父结点k-项集是频繁的。
层间关联规则考虑最小支持度的时,应该根据较低层次的最小支持度来定。
2、多维关联规则:
在挖掘维间关联规则和混合维关联规则的时候,还要考虑不同的字段种类:种类型和数值型。
1)对于种类型的字段,原先的算法都可以处理。
2)对于数值型的字段,需要进行一定的处理之后才可以进行。处理数值型字段的方法基本上有以下几种:
①数值字段被分成一些预定义的层次结构。这些区间都是由用户预先定义的。得出的规则也叫做静态数量关联规则。
②数值字段根据数据的分布分成了一些布尔字段。论文格式。每个布尔字段都表示一个数值字段的区间,落在其中则为1,反之为0。这种分法是动态的。得出的规则叫布尔数量关联规则。
③数值字段被分成一些能体现它含义的区间。它考虑了数据之间的距离的因素。得出的规则叫基于距离的关联规则。
④直接用数值字段中的原始数据进行分析。使用一些统计的方法对数值字段的值进行分析,并且结合多层关联规则的概念,在多个层次之间进行比较从而得出一些有用的规则。得出的规则叫多层数量关联规则。
(五)、实际情况解决
1、辛普森悖论(Simpcn’sparadox)
在某些情况下,隐藏变量可能会导致一对变量间的联系消失或逆转方向。
解决方法:采取适当分层,考虑隐含变量的影响。
2、倾斜支持度分布的影响
在某些情况下,数据集的大多数项具有较低的或中等频度,但少数项具有很高的频率,此时如果把最小支持度阈值设置过高,则包含进去的项偏少;如果设置过低,则频繁集过多,也会出现虚假如交叉支持模式。
1)交叉支持模式:是一个项集 ,它的支持度比率 小于用户指定的阈值
2)检查交叉支持模式:
通过提取 产生的所有规则中最低置信度规则的方法来检查
①最低置信度规则的左边只包含一个项,即令 则规则 的置信度最低。
,由于 则:
③若 ,则该模式不是交叉支持模式,若 ,则该模式是交叉支持模式。
三、结论与展望
本文讨论了数据挖掘中产生关联规则的方法以及它的应用,这方面一些研究成果已取得很大的成绩,并已被集成在一些系统中,如IBM的Quest项目,SimonFarse大学的DBMiner等。具体的内容有经典频集算法,对频集算法的优化,扩展。
对于关联规则的发展,可以在下面一些方向上进行近一步的深入研究。在处理极大量的数据时,如何提高算法效率的问题;对于挖掘迅速更新的数据的挖掘算法的进一步研究;在挖掘的过程中,提供一种与用户进行交互的方法,将用户的领域知识结合在其中;对于数值型字段在关联规则中的处理问题;生成结果的可视化方面等等。
参考文献:
[1].J.Han and M.Kamber:DataMining Concepts and Techniques,范明等译.数据挖掘概念与技术.高教出版社
[2].陈文伟 黄金才 赵新昱.数据挖掘技术北京工业大学出版社2002
[3].David Hand HeikkiMannila Padhraic Sngth著,张银奎等译.数据挖掘原理 机械工业出版社
[4].梁旭,张楠,黄明.一种新的高效关联规则数据挖掘算法,大连铁道学院学报2001
[5].吉根林,孙志辉. 数据挖掘技术中国图形图像学报 2001
 

查看相关论文专题
加入收藏  打印本文
上一篇论文:高校网络教学资源平台建设的探究
下一篇论文:关于海航装备信息管理信息化的思考
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
    无相关信息
最新计算机论文
读者推荐的计算机论文