网站反爬虫的目的与手段

网站所有者从所有网站来访者中识别出爬虫并对其做出相应处理(通常为封禁IP)的过程,被称为反爬虫。对于网站所有者而言,爬虫并不是一个受欢迎的客人。爬虫会消耗大量的服务器资源,影响服务器的稳定性,增加运营...
阅读全文

爬虫的合法性与robot.txt协议

1. 爬虫的合法性 网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。 目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。...
阅读全文

深层网络爬虫的基本原理

Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面,以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户...
阅读全文

增量式网络爬虫的基本原理

增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的...
阅读全文

什么是统计数据质量评价

国外特别是发达国家统计机构十分重视数据质量的评价和管理,建立数据质量评价机制和管理体系,以改进和提高统计数据质量。 总体上,数据质量管理可分为两类: 一类是数据质量综合管理体系,即在统一的组织框架下,...
阅读全文

统计数据质量的内涵

统计数据质量是国家统计机构的“生命”。数据质量的好坏,不仅影响决策正确性与科学性,而且还直接影响国家统计机构的形象和声誉。随着经济全球化进程的加快,信息网络技术的推广应用,社会各界对统计信息的需求越来...
阅读全文

典型的数据仓库元数据的例子

典型的数据仓库元数据的例子 简单地说,元数据就是关于数据的数据,可以理解为数据仓库的数据字典。正如我们在操作系统中要存储文件/目录的元数据:文件名、文件大小、文件类别、创建人、修改人、访问时间等,在数...
阅读全文
聚类分析算法评价:F值评价法 数据挖掘

聚类分析算法评价:F值评价法

聚类分析算法评价:F值评价法 聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越...
阅读全文
聚类分析算法评价:RI评价法 数据挖掘

聚类分析算法评价:RI评价法

聚类分析算法评价:RI评价法 聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越...
阅读全文