3.2 Web日志挖掘模式发现
Web日志详细地记录了用户访问站点的情况,反映出用户访问Web站点的信息,包括每个用户的访问行为,代表了每个用户的个性,经过处理后,从中提取一些特性,具有非常丰富的内涵。Web日志挖掘通过分析Web日志文件发现用户访问站点的模式,其过程包括数据预处理、模式发现、模式分析,如图2。数据预处理是根据挖掘的目的,对原始Web日志文件中的数据经过数据清洗、用户识别、会话识别以及路径补充等,转化为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库中,生成事务数据库。模式发现是指运用各种挖掘算法对处理后的数据进行挖掘,生成用户访问模式,生成模式库。模式分析是对模式库中的用户访问模式进行分析,将有价值的模式提取出来,作为站点建设和改进的依据或其他应用。Web日志挖掘的研究主要是数据预处理和模式发现。
图2 Web日志挖掘模型
模式发现是Web日志挖掘的核心,通过对Web日志进行有效的挖掘,可以发现用户访问页面的特征、规律,获得更深层次的用户访问信息,即用户访问模式,包括关联规则、用户分类和聚类、页面聚类、序列模式、频繁访问路径等,这些模式反映了用户访问Web站点的兴趣、行为,可以作为站点设计者改善Web服务,提供高质量的Web服务的有力依据。挖掘出的模式以及统计分析的结果有着广阔的应用,如3.2节所述。因此Web日志挖掘的模式发现这一过程非常重要。
Web日志模式发现的研究主要是针对不同挖掘任务研究各种模式发现算法。文献[2]研究了Web日志的关联规则挖掘,文献[3]首先提出路径遍历模式发现算法,文献[4]都是基于访问路径树的频繁访问路径挖掘,文献[5]研究了基于传统的数据挖掘算法的序列模式挖掘。文献[4]中提出的CAP算法用于发现大多数客户按某种页面访问顺序来访问一个网站,从而发现用户的频繁访问路径这种行为模式。其思想[4]是,首先构造一棵在数据结构上类似于FP-树的WAP-树,WAP-树用来压缩存储Web事务数据库WTDB,然后为每一个支持度计数大于最小支持度计数 的页面创建HAP-树,最后在HAP-树上挖掘频繁访问路径。步骤如下:
输入:WTDB和
输出: -频繁访问路径
步1 扫描WTDB,用算法Make-WAP-Tree[4]构造WAP-树;
步2 将WAP-树的头表中每一个支持度计数大于 的页面记入集合L1,且按支持度计数升序排序,对于L1中的每一个页面只Pi:(1)用算法Make-HAP-Tree为页面P创建HAP-树。(2)用算法FPath-Output输出以页面Pi打头的频繁访问路径及其支持度。
从算法的输入知,当增加一批新的日志数据构成WTDB,又需要重新扫描整个WTDB来产生新的用户访问模式,或者是当最小支持计数 改变的时候,又需要重新扫面WTDB,不能在原有挖掘结果的基础上进行更新来得到新的知识,即不能有效地解决增量问题。当数据库更新后或其它情况发生变化时,为了得到新的模式,只能对整个新数据库重新扫描,重新运用一次挖掘算法,这种做法有明显的不合理之处:第一,重新扫描数据库会浪费大量时间;第二,上一次挖掘得到的一些有用信息不能被再次利用。
在越来越多的应用领域中,数据库处在更新中,即随着时间的推移,数据库规模会不断增加,或者需要对最小支持计数 进行调整针对不同情况找到感兴趣的模式,采用传统挖掘算法,效率会越来越低,因此,如何针对动态数据库或最小支持计数 改变的条件下挖掘模式具有更重要的实际意义,这就出现了增量挖掘,用以提高挖掘效率。
增量挖掘是指针对动态变化的数据库或当某些情况发生变化时,并不需要重新扫描整个数据库,而是在原来挖掘结果的基础上,仅作由新情况所引起的更新。增量挖掘可以使模式库库处于动态更新的状态,既具有动态的学习能力,又有相对较优的时间特性。如关联规则的增量挖掘包括以下几种情况:(1)最小支持计数不变,数据库随时间不断变化。FUP(stands for Fast Update)算法[6]用于这种情况的增量挖掘,解决当一个新增数据集添加到原始数据库中时关联规则的更新,基于Apriori思想实现。(2)数据库不变,调整最小支持计数。基于FP-tree的FIUA(Fast Incremental Updating Algorithm)[7]是解决这一类问题的关联规则的增量更新算法。(3)数据库和最小支持计数都变化。这种增量挖掘算法相对来说较少。但最具有实际意义。
在Web日志挖掘中,Web日志随时间不断增加,用户对Web站点的访问不受时间限制而且用户数量非常大,使得Web服务器不断产生新的日志记录,要全面了解用户的访问行为必须需要充分利用已有的挖掘结果,将已知模式作为基础,对针对新的日志进行分析得到新的用户访问模式,摒弃失效的模式,从而得到实时更新后的用户访问模式,以进行智能Web服务所需的模式库的更新。因此,增量挖掘对于Web日志挖掘模式库的更新具有更重要的意义,可以引入其他技术来实现针对数据库和最小支持计数都变化情况下的增量挖掘,这也是下一步需要继续探索和研究的问题。
4. 总结
对Web日志挖掘进行了较深入的探析,分析了Web发展所带来的问题、Web日志挖掘的应用领域,对Web日志挖掘模式发现进行了探析,分析了传统模式发现算法无法满足增量更新问题和已有增量算法的不足,结合Web日志的特点,探讨Web日志增量挖掘的重要性。下一步工作,进一步研究和实现Web日志增量挖掘问题。 2/3 首页 上一页 1 2 3 下一页 尾页 |