什么是网络爬虫:网络爬虫的工作原理
互联网的发明催生了互联网站,世界上第一个网站http://info.cern.ch/是由英国人蒂姆·伯纳斯-李(Tim Berners-Lee)于1991年8月6日建立的,随后出现的越来越多的网站引发了对网站内容搜索的需求。
网络爬虫是按照一定的规则,自动地抓取互联网信息的一种程序或脚本。早在1990年,加拿大麦基尔大学(McGill University)的三名学生Alan Emtage、Peter Deutsch和Bill Wheelan编写了程序Archie,它利用脚本程序自动搜索网上各个ftp主机中的文件,并对其中的有关信息建立索引,然后使用者就可以采用一定的表达式通过这个索引文件进行查询。
美国Nevada System Computing Services大学于1993年开发了新的搜索工具,增加了对网页的搜索。搜索工具的核心是搜索文件内容的搜索模块。在工作时,它像爬虫或蜘蛛一样在网络间“爬来爬去”,因此称之为网络爬虫或网络蜘蛛。
网络爬虫的工作原理如图2-1所示。
图2-1 网络爬虫的工作原理
网络爬虫工作时,是从初始网页的地址URL开始,找到这些初始网页上用于链接其他网页的URL列表,将其存入待“爬”的地址簿,然后对地址簿中的每个地址根据策略(深度、宽度、最佳)逐个搜索,从互联网上下载、保存网页,分析并获取网页中符合条件的新的URL链接。对于新获得的URL,将其存入待“爬”的地址簿;对于已经处理完毕的网页,将其内容存入数据库作为镜像缓存,而其URL地址则存入已搜索的集合,以避免重复搜索。这样的过程不断重复,直到满足停止搜索的条件为止。