摘要:Web资源不断丰富的同时,Web站点的结构也将变得越来越复杂,给用户查找信息和网站设计人员的工作带来了一定困难,传统的Web站点缺乏智能性和主动性,因此需要对Web站点进行优化以提供智能的Web服务,如个性化服务、自适应站点等,满足不同用户的信息需求,使用户快速找到所需信息。Web日志挖掘能够有效地发现用户的访问行为,为站点的建设和改进提供有力依据,实现Web站点的智能化,从而解决上述问题。从Web发展所带来的问题、Web日志挖掘的应用以及Web日志挖掘模式发现这三个方面展开对Web日志挖掘的探析。
论文关键词:Web挖掘,Web日志挖掘
Web起源于20世纪80年代,由位于瑞士的欧洲量子物理实验室CERN(the European Laboratory for Particle Physics)所发展出来的一种主从结构分布式超媒体系统。到20世纪90年代,Web技术有了突破性的进展,从此迅速成长为全球范围内的信息宝库,成为当今信息时代人们获取信息的一个重要途径。如何从海量的Web数据中找到潜在的、有用的知识,以帮助用户更快地获取自己所需要的信息是一个新的挑战,将数据挖掘技术应用到Web日志可以有效地解决问题,这就是Web日志挖掘。Web日志挖掘是Web挖掘的一个重要分支。
2. Web挖掘简介
Web挖掘是结合了Web和数据挖掘的一种技术,是数据挖掘技术在Web上的应用,它的出现使得从海量的Web信息中抽取潜在的、有用的模式和知识成为可能。因此,在已有的KDD (Knowledge Discovery in Database,数据库中的知识发现)方法和技术已不能满足人们从Web中获取知识的需要的情况下,O.Etzioni于1996年最早提出Web挖掘这个概念。

图1 Web挖掘的分类
Web挖掘不同于传统的数据挖掘,它比传统的数据挖掘复杂和困难,要用到更多的有别于传统数据挖掘的技术和方法,对传统的挖掘方法进行扩展和改进,将其应用到Web信息上进行挖掘,得到有用的知识。Web信息是Web挖掘的数据来源,典型的Web信息包括:Web页面、Web结构、Web日志。Web挖掘相
应地分为三大类[1]:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining,Web日志挖掘),如图1所示。
3 Web日志挖掘探析
3.1 Web发展带来的问题及解决方法
Web作为一个巨大的信息服务中心,为用户提供了大量而丰富的信息资源,是人们生活中不可缺少的最重要的信息获取手段。然而,Web资源不断丰富的同时,Web站点的结构也将变得越来越复杂,从而会出现以下问题:(1)面对复杂的Web站点,用户想快速地获得自己所需要的资源比较费劲,甚至不知道从何下手。(2)传统的Web服务缺乏智能性,只是为人们提供资源,对所有的用户一视同仁,不能针对不同的用户提供不同的服务,不能根据用户的兴趣为用户寻找到他们所需要的信息等。(3)Web站点的经营和管理者的设计工作变得困难,为了提高网站的声誉和效益以吸引更多的用户,他们会竭尽全力对站点进行合理的设计或改进,来优化站点。
这些问题使得用户对Web服务提出了更高的要求。提供高质量的Web服务的一个重要前提就是需要了解用户的访问行为,然后根据用户访问行为来推荐和提供服务,满足不同层次、不同爱好的用户的信息需求。了解用户的访问行为特性对提高Web站点的服务质量尤其重要。但由于一个Web站点有大量的用户对其进行访问,而这些用户又分布在世界各个不同的地区,直接去找用户了解他们的兴趣和特性不切实际,能够有效地反应用户访问Web站点行为的一种数据就是Web日志,它具有以下特点:(1)Web日志是一种大规模的数据,每个网站每天随时都会有大量的不同的用户进行访问,Web日志随着时间的推移,数据会变得非常庞大。(2)Web日志具有丰富的内涵,记录了用户的行为,包含决策可用的信息,是网站设计者和用户进行沟通的桥梁。
传统的数据库技术对Web日志进行处理没有多大意义,因为不需要进行简单的查询或存取操作,真正需要的是对Web日志数据进行深层次的处理,把这些数据转换成有用的信息,从中获取隐藏在Web日志背后的知识。通过数据挖掘的方法对Web日志进行分析和处理,发现有关用户访问站点行为的知识,这就是Web日志挖掘。基于Web日志的特点,可以看出Web日志是一种良好的数据挖掘对象,对它进行挖掘可以解决Web发展所带来的问题,Web日志挖掘的产生成为必然。
3.2 Web日志挖掘的应用
Web日志挖掘可以完成两类任务:统计分析和智能分析。统计分析包括流量分析、广告分析、网站出入口分析、用户来源分析以及浏览器和平台分析等。智能分析是进行深层次的数据分析,通过数据挖掘的模式发现阶段来实现,是具有重要意义的一类。
Web日志挖掘得到的知识称为用户访问模式,这些模式有着广阔的应用:(1)改进Web服务器的性能。通过Web日志挖掘,可以提供网站服务效率全方位的信息,提高系统效率和服务质量,包括分析网站流量,发现系统性能瓶颈,找到平衡服务器负荷,优化传输,减少拥塞,缩短用户等待时间。(2)优化Web站点的结构。站点结构描述了某Web站点的页面以及页面之间的关系。通常Web服务方主要根据自己的领域知识设计Web页面的结构,而Web站点主要是为用户提供服务,满足用户的需要。那么服务方的结构设计是否合理?是否能够吸引更多的用户?这些问题的出现要根据用户需要对站点进行改进,优化站点。(3)实现Web个性化服务和自适应站点。目前Web系统为所有用户提供相同的服务,其典型的服务方式是通过建立一个Web站点来向所有用户发布相同的信息。然而用户的需求千差万别,因此,用户希望Web系统能够根据他们特性的不同提供个性化的服务。Web个性化实质上就是一种以用户需求为中心的Web服务。利用序列模式、频繁访问路径等方法对站点访问者的行为进行预测和聚类,为他们提供具有类似浏览模式的用户群体的个性化服务,更好地满足用户的需求。自适应站点是指能根据用户的访问模式自动学习和调整自身组织架构的网站。通过观察用户的访问模式自动改进站点的结构和表现形式,以反映用户的兴趣所在。(4)商业智能发现。Web数据的商业智能发现是将数据挖掘技术应用到电子商务以发现有商业价值的决策知识。通过加工处理涉及消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯和消费需求,进而推断出他们下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。(5)网络安全。分析网上银行、网上商品交易用户日志,可以防范黑客攻击、恶意诈骗。(6)网站评估。Web日志挖掘可以获取用户对网站使用情况的第一手资料,为网站评估提供依据。
1/3 1 2 3 下一页 尾页 |