什么是网络爬虫：网络爬虫的工作原理

2020年11月2日14:19:53已关闭评论

什么是网络爬虫：网络爬虫的工作原理

互联网的发明催生了互联网站，世界上第一个网站http://info.cern.ch/是由英国人蒂姆·伯纳斯-李（Tim Berners-Lee）于1991年8月6日建立的，随后出现的越来越多的网站引发了对网站内容搜索的需求。

网络爬虫是按照一定的规则，自动地抓取互联网信息的一种程序或脚本。早在1990年，加拿大麦基尔大学（McGill University）的三名学生Alan Emtage、Peter Deutsch和Bill Wheelan编写了程序Archie，它利用脚本程序自动搜索网上各个ftp主机中的文件，并对其中的有关信息建立索引，然后使用者就可以采用一定的表达式通过这个索引文件进行查询。

美国Nevada System Computing Services大学于1993年开发了新的搜索工具，增加了对网页的搜索。搜索工具的核心是搜索文件内容的搜索模块。在工作时，它像爬虫或蜘蛛一样在网络间“爬来爬去”，因此称之为网络爬虫或网络蜘蛛。

网络爬虫的工作原理如图2-1所示。

图2-1 网络爬虫的工作原理

网络爬虫工作时，是从初始网页的地址URL开始，找到这些初始网页上用于链接其他网页的URL列表，将其存入待“爬”的地址簿，然后对地址簿中的每个地址根据策略（深度、宽度、最佳）逐个搜索，从互联网上下载、保存网页，分析并获取网页中符合条件的新的URL链接。对于新获得的URL，将其存入待“爬”的地址簿；对于已经处理完毕的网页，将其内容存入数据库作为镜像缓存，而其URL地址则存入已搜索的集合，以避免重复搜索。这样的过程不断重复，直到满足停止搜索的条件为止。

登录 找回密码

登录找回密码