爬虫的合法性与robot.txt协议

1. 爬虫的合法性 网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。 目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。...
阅读全文

深层网络爬虫的基本原理

Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面,以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户...
阅读全文

增量式网络爬虫的基本原理

增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的...
阅读全文

举例说明什么是周期性分析

举例说明什么是周期性分析 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚...
阅读全文

对比分析的适用情况

对比分析的适用情况 对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。 特别适用于指标间的横纵向比较、时间序列的比较分析。 ...
阅读全文

数据一致性分析:什么意思

数据一致性分析:什么意思 数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。 在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是...
阅读全文

离群点分析包括:箱型图分析

离群点分析包括:箱型图分析 异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。 箱型图分析 箱型图提供了识别异常值的一个标准:异常值通常被定义为小...
阅读全文

离群点分析包括:3σ原则

离群点分析包括:3σ原则 异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。 3σ原则 如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定...
阅读全文