增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的时候爬取新产生或者有更新的页面,而没有变化的页面则不进行爬取,能有效地减少数据下载量并及时更新已爬取过的网页,减少时间和存储空间上的浪费,但该算法的复杂度和实现难度更高。
增量式网络爬虫需要通过重新访问网页来对本地页面进行更新,从而保持本地集中存储的页面为最新页面,常用的方法有以下3种。
(1)统一更新法
爬虫以相同的频率访问所有网页,不受网页本身的改变频率的影响。
(2)个体更新法
爬虫根据个体网页的改变频率来决定重新访问各页面的频率。
(3)基于分类的更新法
爬虫按照网页变化频率将网页分为更新较快的网页和更新较慢的网页,并分别设定不同的频率来访问这两类网页。
为保证本地集中页面的质量,增量式网络爬虫需要对网页的重要性进行排序,常用的策略有广度优先策略和PageRank优先策略,其中,广度优先策略按照页面的深度层次进行排序,PageRank优先策略按照页面的PageRank值进行排序。