欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

关联规则挖掘算法综述

时间:2011-04-24  作者:秩名

论文导读:一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。4)频繁项集:支持度不小于用户给定的最小支持度的项集。Apriori性质:频繁项集的所有非空子集都必须也是频繁的。通过实验可以发现寻找频繁集主要的计算是在生成频繁2-项集Lk上,Park等就是利用了这个性质引入hash技术来改进产生频繁2-项集的方法。的置信度最低。
关键词:关联规则,频繁集,Apriori,FP-tree,支持度,置信度
一、关联规则挖掘简介
一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。
1、问题描述与基本概念
1)、问题描述
关联规则的挖掘问题可形式化描述如下:
设I={i 1 ,i 2 ,…,i m }是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即 ,T有唯一的标识符TID.一条关联规则就是一个形如 的蕴含式,其中, 。关联规则 成立的条件是:
①它具有支持度S,即事务数据库D中至少有S%的事务包含X∪Y;
②它具有置信度C,即在事务数据库D所包含X的事务中,至少有C%的事务同时也包含Y,关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度 和最小置信度 的关联规则。
2)、基本概念:
1)项集:项的集合。
2)k项集:包含k个项的项集。
3)项集的出现频率:包含项集的事务数目。
4)频繁项集:支持度不小于用户给定的最小支持度的项集。
5)频繁k项集:支持度不小于用户给定的最小支持度的k项集。
2、关联规则分类 :
3、关联规则价值衡量方法
1)、主观兴趣度度量:用户决定规则的有效性、可行性,没有统一的标准。
2)、客观兴趣度度量:
①“支持度—置信度”框架:

②兴趣度:
③IS度量:
二、关联规则的挖掘算法
挖掘关联规则可以分解为以下两个过程:
①找出存在于事务数据库中的所有频繁项集。
②利用频繁项集生成关联规则。
(一)、Apriori算法:使用候选项集找频繁项集
Apriori性质:频繁项集的所有非空子集都必须也是频繁的。
1、Apriori算法步骤:
1)用Apriori算法产生频繁项集
①连接步:为找 ,通过 与自己连接产生k项集的集合。该候选项集的集合记作: 论文格式。设 表示 中的项集, 表示 中的第j项,假定项集中的项按字典序排列;连接

②剪枝步:扫描事务集D,确定 中每个元素出现的次数,从而确定
2)由频繁项集产生关联规则
a、对每个频繁项集L产生其所有的非空真子集。
b、对L的每个非空真子集S计算 置信度,大于 的留下来作为挖掘到的关联规则,小于 的去掉。
2、Apriori算法的几种优化方法
1) 基于划分的方法:
①将事务集D分为n个非重叠的部分。
②找出每部分内的频繁项集(局部)。
③将所有的局部频繁项集作为整个D的候选项集,扫描D确定每个候选集的实际支持度。

查看相关论文专题
加入收藏  打印本文
上一篇论文:高校网络教学资源平台建设的探究
下一篇论文:关于海航装备信息管理信息化的思考
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
    无相关信息
最新计算机论文
读者推荐的计算机论文