论文导读:一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。4)频繁项集:支持度不小于用户给定的最小支持度的项集。Apriori性质:频繁项集的所有非空子集都必须也是频繁的。通过实验可以发现寻找频繁集主要的计算是在生成频繁2-项集Lk上,Park等就是利用了这个性质引入hash技术来改进产生频繁2-项集的方法。的置信度最低。
关键词:关联规则,频繁集,Apriori,FP-tree,支持度,置信度
一、关联规则挖掘简介
一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。
1、问题描述与基本概念
1)、问题描述
关联规则的挖掘问题可形式化描述如下:
设I={i 1 ,i 2 ,…,i m }是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即 ,T有唯一的标识符TID.一条关联规则就是一个形如 的蕴含式,其中, 。关联规则 成立的条件是:
①它具有支持度S,即事务数据库D中至少有S%的事务包含X∪Y;
②它具有置信度C,即在事务数据库D所包含X的事务中,至少有C%的事务同时也包含Y,关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度 和最小置信度 的关联规则。
2)、基本概念:
1)项集:项的集合。
2)k项集:包含k个项的项集。
3)项集的出现频率:包含项集的事务数目。
4)频繁项集:支持度不小于用户给定的最小支持度的项集。
5)频繁k项集:支持度不小于用户给定的最小支持度的k项集。
2、关联规则分类 : 
3、关联规则价值衡量方法
1)、主观兴趣度度量:用户决定规则的有效性、可行性,没有统一的标准。
2)、客观兴趣度度量:
①“支持度—置信度”框架:

②兴趣度: 
③IS度量: 
二、关联规则的挖掘算法
挖掘关联规则可以分解为以下两个过程:
①找出存在于事务数据库中的所有频繁项集。
②利用频繁项集生成关联规则。
(一)、Apriori算法:使用候选项集找频繁项集
Apriori性质:频繁项集的所有非空子集都必须也是频繁的。
1、Apriori算法步骤:
1)用Apriori算法产生频繁项集
①连接步:为找 ,通过 与自己连接产生k项集的集合。该候选项集的集合记作: 。论文格式。设 表示 中的项集, 表示 中的第j项,假定项集中的项按字典序排列;连接 : :

②剪枝步:扫描事务集D,确定 中每个元素出现的次数,从而确定 。
2)由频繁项集产生关联规则
a、对每个频繁项集L产生其所有的非空真子集。
b、对L的每个非空真子集S计算 置信度,大于 的留下来作为挖掘到的关联规则,小于 的去掉。
2、Apriori算法的几种优化方法
1) 基于划分的方法:
①将事务集D分为n个非重叠的部分。
②找出每部分内的频繁项集(局部)。
③将所有的局部频繁项集作为整个D的候选项集,扫描D确定每个候选集的实际支持度。
1/3 1 2 3 下一页 尾页 |