欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

试析Web数据挖掘在边防情报工作中的应用模式

时间:2011-04-23  作者:秩名

论文导读:对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。
关键词:Web数据挖掘,边防情报,应用模式
 

随着科学技术的突飞猛进,社会信息化的快速发展, 以信息技术为主要标志的高新技术革命已经引起了社会各个领域的深刻变革,网络已经成为社会生活不可分割的一部分。每天有数以亿计的网民在互联网上浏览、发布信息,互联网已经成为信息时代最为重要的信息集散地。对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。

一、Web数据挖掘技术

Web数据挖掘技术是由传统数据库领域的数据挖掘技术演变而来。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程;它是从数据仓库中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据挖掘出现于20世纪80年代,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出了新的理论与方法,演变成为Web数据挖掘技术。Web数据挖掘是指从与WWW有关的资源和行为中抽取人们感兴趣的、有用的模式和隐含信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。Web数据挖掘已经成为对互联网信息进行深度分析、开发与利用的重要手段。

二、Web数据挖掘的分类

(一)Web内容挖掘

Web内容挖掘是指从互联网上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。网上信息形式多以文本信息的形式存在。文本可以被看作是一种顺序数据,目前有许多适合于顺序数据的挖掘方法。Web文本信息挖掘的主要任务一般限定在文本特征的表示、文本的总结,以及文本的分类和聚类等方面。互联网现有大量多媒体信息。对该类信息进行分析挖掘,找出合适的描述模式,阐述并理解其中的意义,可提高该类信息的识别度及检索效率,也是Web多媒体挖掘的目标。论文大全。目前此方面应用的技术手段主要是语音信息的理解及识别、图形图像信息的理解及识别,以及信息检索等。

(二) Web结构挖掘

Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴涵于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。对Web页的链接结构进行分类,可以识别判断页面与文档间的各种属性关系。由于Web页的内外部存在具有各种属性关系的结构信息,通过研究Web结构信息,可得到相关主题、相关分类的页面集合,生成关于某个Web站点的结构和页面结构的概括信息。因此,结构挖掘的重点在于链接信息。

(三) Web日志挖掘

Web日志挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,并尽可能预测用户的行为。通过对用户所访问页面、文档等的技术分析,Web日志挖掘可以找出相关主题间、相关内容间的联系规律。访问分析又称使用分析,主要使用用户基本信息如IP、ID、URL、日期、时间等进行处理。由于Web服务器的Log日志存在完整的结构,当用户访问Web站点时,相关的页面、文档、链接等信息在日志中都做了相应的记录。Web日志挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能要访问的相关站点的链接。利用这种方法,可以获知互联网使用者的行为偏好。

三、Web数据挖掘的主要方法

(一)统计分析方法

统计分析(statistical)方法是通过对总体中的样本数据进行分析,从而描述和推断能够揭示总体中的内部规律的信息和知识的方法。为了适应复杂信息的挖掘需求,往往依赖有明确目标和任务的概率模型。数据挖掘的统计模型要适合于所要提取的对象。利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。如对互联网日志进行统计可以获得有关站点使用的基本信息,包括页面访问次数、日平均访问人数、最受用户欢迎的页面等。除此以外,还可以进行错误分析,如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的浏览路径和路径长度等信息。这些统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。目前已有许多互联网流量分析工具实现了这些基本的统计功能。

(二)关联分析方法

关联分析(associationanalysis)用于发现关联规则,所谓关联规则是指在大量的数据中所隐含的项集之间的关系以及项集的频繁模式。用户在浏览网页时,经常会在同一次访问中浏览一些无顺序关系的页面集合,挖掘发现的这些页面之间内在的联系,就是就表现为它们之间存在一定的关联。如果关联规则中的页面之间没有超链接,则应该引起我们的特别关注。通常使用可信度、支持度、期望可信度和作用度这四个参数来描述关联规则。

(三)分类方法

分类(classification)是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类不同于聚类,聚类无须事先制定标准,而能从信息本身出发,利用算法自动分类;而分类的准则是事先定好的。在Web数据挖掘中,分类主要是将用户配置文件归属到既定的用户类别,网页根据内容的属性分类等。分类技术要求抽取关键属性描述已知的信息,可以通过指导性归纳学习算法进行分类,主要包括决策树分类法、贝叶斯分类法、最近邻分类法等。

(四)聚类分析方法

聚类(clustering)就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析能够将一批数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类,每一类都是大量具有相似性个体的集合,不同类之间具有明显的区别。聚类分析是一种探索性分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从信息本身出发,自动进行分类。例如在Web日志挖掘中,聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类;页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为某个查询提供用户感兴趣的相关超链接。

四、Web数据挖掘在边防情报工作中的应用模式

(一)Web数据挖掘在建立公安网搜索引擎中的应用

目前,边防情报部门所需的公开信息大部分来源于互联网和公安网,情报人员通过使用搜索引擎来快速查询需要的信息,然而公安网的搜索引擎存在较大局限性,搜索出来的结果存在大量冗余信息,不能满足情报人员的需求。因此,在搜索引擎中通过借鉴Web数据挖掘技术可以有效地提高查准率和查全率,从而给情报人员提供较有准确的信息。具体应用方法如下:

1.根据公安网的页面内容,自动形成摘要

目前,使用公安网搜索引擎进行检索,检索的结果文档是以简单摘要形式出现的,它表现为机械地提取网页内容取前几句为摘要,这种仅通过位置进行自动摘要是很难真正反映出网页中的信息内容。论文大全。在文本挖掘中的文本抽取技术是指从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或描述,即文本抽取技术是根据Web文档本身的内容,从Web页中提炼出重要信息形成文档摘要,而不是根据位置来进行文本内容的概括,因此它更能够反映出Web文档中的真正信息。论文大全。这样,情报人员通过浏览关键词就可以了解网页的大致内容,从而决定是否使用该信息。

2.根据检索结果,自动进行文档聚类

文本聚类是文本分类的逆向过程,是指将文档集中的文档分为更小的簇,要求同一簇内文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。情报人员在使用搜索引擎时,会得到大量的返回信息组成的线性表,而其中很大一部分是与其查询请求不相关的,于是通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,并远离那些不相关的文档。再将处理以后的信息以超链接结构组织的层次方式可视化地提供给情报人员,从而大大减短浏览时间。

(二)Web数据挖掘在建立公安网站中的应用

公安网网站是公安网信息的容纳处,我们可以利用Web数据挖掘技术有效地组织网站信息,建立一个资源优化的网站,也就是说通过对网站内容的数据挖掘,主要是对文本内容的挖掘,如采用自动归类技术实现网站信息的层次性组织;以及结合对用户访问日志记录信息的挖掘,把握用户的兴趣,开展网站信息推送服务。

1.采用自动归类技术,实现公安网网站信息层次化

一般而言,网站提供给访问者的信息和服务应该是按优先次序进行排列,网站维护人员应该把重要的信息放在醒目的位置,因此在网站维护时,通过对网站内容挖掘和Web日志挖掘,可以有效地组织网站信息。例如:采用自动归类技术实现网站信息层次化;分析访问者的访问行为,可为用户提供智能化、个性化服务。还可根据访问者的访问兴趣、访问频度、访问时间,动态地调整页面结构。

2.采用日志挖掘技术,实现公安网网站信息推送服务

网站可以根据访问者的浏览情况,发现访问者的兴趣,定期为注册用户提供相关信息,并且调整网站中网页的链接结构和内容,为访问者提供个人定制服务。具体步骤为:首先将日志文件中的数据经过预处理,形成原始数据库;然后获取用户的访问模式,放入用户访问模式数据库;再通过数据挖掘和模式分析形成知识数据库,Web服务器自动更新知识数据库,采用动态主页设计方法,根据用户的知识信息,提供相应的个性化主页。在数据预处理过程中会话识别是重要的一步,它取决于用户访问模式的有效性和准确性。为提高准确性,可采用Cookie法进行会话识别。在呈现个性化主页时,利用用户的IP地址和Cookie值查询知识数据库,发现用户频繁访问的路径,并自动形成相应链接,根据相似用户群和相关Web页推荐给用户。由于是经过挖掘和分析后所产生的动态主页,相对于一般的主页,其针对性更强,更受用户的欢迎。


参考文献:
[1]叶鹰.情报学基础教程[M].科学出版社,2006
[2]栗湘等.Web挖掘应用研究[J]情报理论与实践,2005,(6)
[3]曼丽春等.Web数据挖掘研究与探讨[J].现在电子技术,2006,(8)
[4]徐险峰.基于Web的网络数据挖掘技术[J].情报杂志,2005,(3)
 

 

查看相关论文专题
加入收藏  打印本文
上一篇论文:试论现代汉语拼音在计算机速录技术中的应用
下一篇论文:试析当前网络暴力问题
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
最新计算机论文
读者推荐的计算机论文