网络爬虫技术的发展趋势

时间：2011-04-23 作者：秩名

论文导读：传统的搜索引擎有Yahoo，Google，百度等，这些检索信息的工具是人们每天访问互联网的必经之路。网络爬虫是搜索引擎的重要组成部分，它是一个自动提取网页的程序，为搜索引擎从网上下载网页。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。
关键词：网络爬虫，策略，搜索引擎

网络快速发展的今天，互联网承载着海量的信息，能够准确快速的提取我们所需要的信息是现在的挑战。传统的搜索引擎有Yahoo，Google，百度等，这些检索信息的工具是人们每天访问互联网的必经之路。但是，这些传统性搜索引擎存在着局限性，它不能全面的准确的找到所需要的信息，也会使一些和需求无关的内容一起搜索到。严重的降低了使用这些信息的效率，所以说提高检索信息的速度和质量是一个专业搜索引擎主要的研究内容。

1.搜索引擎的研究

1.1搜索引擎的分类

搜索引擎按其工作方式可分为三种，分别是全文搜索引擎，目录索引类搜索引擎[1]和元搜索引擎。

1. 全文搜索引擎

全文搜索引擎是最常用搜索引擎，大家最熟悉的就是国外的代表Google，和国内的代表百度。它们通常都是提取各个网站的网页文字存放在建立的数据库中，检索与用户查询条件匹配的相关记录，然后按其自己设定的排列顺序将结果返回给用户。

从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序，它们拥有自己的网页数据库，搜索到得内容直接从自身的数据库中调用，如Google和百度；另一种则是租用其他引擎的数据库，但是，是按自定的格式排列搜索结果，如Lycos引擎。

2．目录索引型搜索引擎

目录索引，就是将网站分类，然后存放在相应的目录里，用户在查询所需要的内容时有两种选择一种是关键词搜索，另一种是按分类目录一层一层的查找。据信息关联程度排列，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后以关键词搜索，返回的结果跟搜索引擎一样，也是按自定顺序决定。

目录索引只能说有搜索功能，但仅仅是按目录分类的网站链接列表。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。目录索引型搜索引擎中最具代表性的是Yahoo（雅虎）。其他著名的还有Look Smart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

3.元搜索引擎

当用户在进行查询时，元搜索引擎可以同时在其他多个引擎上进行搜索，将检索结果进行统一处理，并将结果以统一的格式返回给用户。正因为如此，这类搜索引擎的优点是返回结果的信息量更全面，但是缺点就是无用的信息太多不能准确的找到用户需要的结果。

具有代表性的元搜索引擎有Dogpile、InfoSpace、Vivisimo等，中文元搜索引擎中著名的有搜星搜索引擎。

在搜索结果排列方面，不同的元搜索引擎有不同的结果排列的方式。如Dogpile，就直接按来源引擎排列搜索结果，如Vivisimo，是按自定的规则将结果重新进行排列。论文发表。

1.2搜索引擎的工作原理

搜索引擎主要是对用户要求的信息进行自动信息搜集，这个功能共分为两种：一种是定期搜索，即每隔一段时间搜索引擎主动派出“Spider”程序，目的是对一定IP地址范围内的互联网站进行检索，如果一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库；另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，搜索引擎在一定时间内定向向你的网站派出蜘蛛程序，扫描你的网站并将有关信息存入数据库，以备用户查询。

如果用户以关键词查询所需要的信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相匹配的网站时，搜索引擎通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等特殊的算法计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将用户所需要的内容反馈给用户。

2.网络爬虫

2.1通用网络爬虫和聚焦网络爬虫的工作原理

网络爬虫是搜索引擎的重要组成部分，它是一个自动提取网页的程序，为搜索引擎从网上下载网页。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。论文发表。

与传统爬虫相比，聚焦爬虫的工作流程则较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存起来，进行一定的分析、过滤，并建立索引，为了方便之后的查询和检索。

2.2网络爬虫的搜索策略

1．IP 地址搜索策略

IP地址搜索策略是先给爬虫一个起始的IP地址,然后根据IP地址以递增的方式搜索本IP地址段后的每一个地址中的文档，它完全不考虑各文档中指向其它Web 站点的超级链接地址。这种搜索策略的优点是搜索比较全面，因此能够发现那些没被其它文档引用的新文档的信息源；但是缺点是不适合大规模搜索。

2. 深度优先搜索策略

深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件) 。例如，在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，也就是说在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时，说明搜索已经结束。

3. 宽度优先搜索策略

宽度优先搜索的过程是先搜索完一个Web 页面中所有的超级链接，然后再继续搜索下一层, 直到底层为止。例如，一个HTML 文件中有三个超链,选择其中之一并处理相应的HTML文件，然后不再选择第二个HTML文件中的任何超链, 而是返回并选择第二个超链，处理相应的HTML文件，再返回，选择第三个超链并处理相应的HTML文件。当一层上的所有超链都己被选择过，就可以开始在刚才处理过的HIML 文件中搜索其余的超链。

宽度优先搜索策略的优点：一个是保证了对浅层的优先处理，当遇到一个无穷尽的深层分支时，不会导致陷进WWW 中的深层文档中出现出不来的情况发生；另一个是它能在两个HTML文件之间找到最短路径。

宽度优先搜索策略通常是实现爬虫的最佳策略,因为它容易实现，而且具备大多数期望的功能。论文发表。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集，用宽度优先搜索策略则需要花费比较长的时间才能到达深层的HTML文件。

2.3网络爬虫的发展趋势

随着AJAX/Web2.0的流行，如何抓取AJAX等动态页面成了搜索引擎急需解决的问题，如果搜索引擎依旧采用“爬”的机制，是无法抓取到AJAX页面的有效数据的。对于AJAX这样的技术，所需要的爬虫引擎必须是基于驱动的。而如果想要实现事件驱动，首先需要解决以下问题：第一，JavaScript的交互分析和解释；第二，DOM事件的处理和解释分发；第三，动态DOM内容语义的抽取。

3.结束语

本文阐述了搜索引擎的原理以及网络爬虫的工作原理和发展趋势，网络爬虫技术的研究对搜索引擎的应用和发展有着十分重要的意义。抓住准度和速度两个大方向，进一步的深入网络爬虫技术，在耗费最少的网络资源的前提下使搜索引擎能够更准确更快捷的找到人们的需求。

参考文献
[1] Edwards, J.,McCurley, K. S., and Tomlin, J. A. (2001). 'An adaptive model foroptimizing performance of an incremental web crawler'. In Proceedings ofthe Tenth Conference on World Wide Web (Hong Kong: Elsevier Science): 106–113.doi:10.1145/371920.371960.
[2]刘金红，陆余良，主题网络爬虫研究综述，计算机应用研究院，2007（10）：26-27.
[3]王岩，搜索引擎中网络爬虫技术的发展，电信快报，2008（10）：19-20.
[4]刘世涛，简析搜索引擎中网络爬虫的搜索策略，阜阳师范学院学报，2006（9）：60-61.

查看相关论文专题：

	加入收藏打印本文
上一篇论文：网络内存服务器
下一篇论文：网络信息计量学理论研究与实践进展

科技论文分类

相关计算机论文

最新计算机论文

读者推荐的计算机论文