深层网络爬虫的基本原理

2021年10月22日16:44:12已关闭评论

Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面，以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取，隐藏在搜索表单后的，需要用户提交关键词后才能获得的Web页面，如一些登录后可见的网页。深层页面中可访问的信息量为表层页面中的几百倍，为目前互联网上发展最快和最大的新型信息资源。

深层网络爬虫爬取数据过程中，最重要的部分就是表单填写，包含以下两种类型。

（1）基于领域知识的表单填写

该方法一般会维持一个本体库，并通过语义分析来选取合适的关键词填写表单。该方法将数据表单按语义分配至各组中，对每组从多方面进行注解，并结合各组注解结果预测最终的注解标签。该方法也可以利用一个预定义的领域本体知识库来识别深层页面的内容，并利用来自Web站点的导航模式识别自动填写表单时所需进行的路径导航。

（2）基于网页结构分析的表单填写

该方法一般无领域知识或仅有有限的领域知识，其将HTML网页表示为DOM树形式，将表单区分为单属性表单和多属性表单，分别进行处理，从中提取表单各字段值。