数据分析是为达到业务目标而进行的一系列有目的、有步骤的操作。 (1)数据 数据是客观事物属性的取值,是信息的具体描述和表现,是信息的载体。在计算机系统中,凡能被计算机所接收和处理的字符、数字、图形、图...
机器学习、人工智能与数据挖掘的关系
机器学习是人工智能的一个分支,作为人工智能的核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题。机器学习是通过一些让计算机可以自动“学习”的算法,从数据中分析获得规律,然后利用规律对新样本进...
网站反爬虫的目的与手段
网站所有者从所有网站来访者中识别出爬虫并对其做出相应处理(通常为封禁IP)的过程,被称为反爬虫。对于网站所有者而言,爬虫并不是一个受欢迎的客人。爬虫会消耗大量的服务器资源,影响服务器的稳定性,增加运营...
爬虫的合法性与robot.txt协议
1. 爬虫的合法性 网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。 目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。...
深层网络爬虫的基本原理
Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面,以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户...
增量式网络爬虫的基本原理
增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的...
聚焦(主题)网络爬虫的爬取策略
聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬取与预设的主题相关的页面。与通用网络爬虫相比,聚焦爬虫仅需爬取与主题相关的页面,极大地节省硬件及网络资源,能更快地更新保存的页面,更好地满足...
通用网络爬虫(全网爬虫)的爬取策略
通用网络爬虫又称全网爬虫,其爬取对象由一批种子URL扩充至整个Web,主要由搜索引擎或大型Web服务提供商使用。这类爬虫的爬取范围和数量都非常大,对于爬取的速度及存储空间的要求都比较高,而对于爬取页面...
CHAID、CART和ID3决策树算法的区别
目前,最常用的3种决策树算法分别是CHAID、CART和ID3(包括后来的C4.5,乃至C5.0)。 CHAID(Chi-square Automatic Interaction Detector)算...
数据公布通用系统(GDDS)与数据公布特殊标准(SDDS)的区别
为了提高统计数据质量,国际货币基金组织(International Monetary Funds,简称IMF)在1995年10月批准建立两个层次的数据标准,即数据公布通用系统(General Data...
什么是统计数据质量评价
国外特别是发达国家统计机构十分重视数据质量的评价和管理,建立数据质量评价机制和管理体系,以改进和提高统计数据质量。 总体上,数据质量管理可分为两类: 一类是数据质量综合管理体系,即在统一的组织框架下,...
统计数据质量的内涵
统计数据质量是国家统计机构的“生命”。数据质量的好坏,不仅影响决策正确性与科学性,而且还直接影响国家统计机构的形象和声誉。随着经济全球化进程的加快,信息网络技术的推广应用,社会各界对统计信息的需求越来...
数据集市(数据市场)的特点特征
数据集市(数据市场)的特点特征 数据集市,也叫数据市场,是一个从操作的数据和其他的为某种特殊的专业人员团体服务的数据源中收集数据的仓库。 正如概念所述,数据集市也只是一个数据仓库,数据集市的特点是: ...
典型的数据仓库元数据的例子
典型的数据仓库元数据的例子 简单地说,元数据就是关于数据的数据,可以理解为数据仓库的数据字典。正如我们在操作系统中要存储文件/目录的元数据:文件名、文件大小、文件类别、创建人、修改人、访问时间等,在数...
数据仓库与数据库的区别
在大数据出现之前,数据库在传统应用中,占据了十分重要的地位——所有业务数据的存储都使用数据库,因此也出现了MySQL、Access、DB2、Oracle、SQL Server等很多数据库和厂商。 数据...
数据仓库之父William H.Inmon关于数据仓库的定义
仓库是一个出现了上千年的概念,意思是盛装物品的巨大容器,比如粮食仓库、弹药仓库、原材料仓库等。而之所以称为“数据仓库”,也正是使用了仓库的本意。 顾名思义:数据仓库就是盛装了大量数据的巨大容器。 这里...
举例说明大数据的复杂性与多样性
举例说明大数据的复杂性与多样性 (1)数据的复杂性 复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作。因此重要的是,通过了解数据的复杂程度及它在未来的复杂性趋向,来评估大数据/商业智能项目是...
大数据由小到大的尺寸和存储容量
大数据由小到大的尺寸和存储容量 大数据的存储结构小到以字节来表示,大到NB和DB级别。以2 10 逐级增长。下面表示的是数据由小到大的尺寸和存储容量。最小的基本单位是bit,按顺序给出所有单位:bit...
离群数据与统计学异常值的区别
离群数据与统计学异常值的区别 离群数据(Outlier)就是明显偏离其他数据,不满足数据的一般模式或行为,与存在的其他数据不一致的数据。 离群数据与统计学中的异常值稍有不同: 统计学中的异常值往往指的...
数据挖掘
聚类分析算法评价:F值评价法
聚类分析算法评价:F值评价法 聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越...