聚焦(主题)网络爬虫的爬取策略

2021年10月22日16:42:09聚焦(主题)网络爬虫的爬取策略已关闭评论

聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬取与预设的主题相关的页面。与通用网络爬虫相比,聚焦爬虫仅需爬取与主题相关的页面,极大地节省硬件及网络资源,能更快地更新保存的页面,更好地满足特定人群对特定领域信息的需求。

按照页面内容和链接的重要性评价,聚焦网络爬虫策略可分为以下4种。

(1)基于内容评价的爬取策略

该策略将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关的页面。其缺点为,仅包含查询词,无法评价页面与主题的相关性。

(2)基于链接结构评价的爬取策略

该策略将包含很多结构信息的半结构化文档Web页面用来评价链接的重要性,其中,一种广泛使用的算法为PageRank算法,该算法可用于排序搜索引擎信息检索中的查询结构,也可用于评价链接重要性,其每次选择PageRank值较大页面中的链接进行访问。

(3)基于增强学习的爬取策略

该策略将增强学习引入聚焦爬虫,利用贝叶斯分类器基于整个网页文本和链接文本来对超链接进行分类,计算每个链接的重要性,按照重要性决定链接的访问顺序。

(4)基于语境图的爬取策略

该策略通过建立语境图来学习网页之间的相关度,具体方法是,计算当前页面到相关页面的距离,距离越近的页面中的链接越优先访问。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。