一手数据与二手数据的区别

按照来源的不同,数据分为一手数据和二手数据两种: · 一手数据是通过查找或购买无法获取的,只能通过亲自调研获取,相应的采集方法是实地调查。 · 二手数据是别人已经整理出来的,只要查找或购买就能获取,相...
阅读全文
因子分析的四个基本步骤 数据分析

因子分析的四个基本步骤

因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。 因子分析通常包括以下四个基本步骤。 1. 确定原有变量...
阅读全文
举例说明什么是关联规则算法 数据分析

举例说明什么是关联规则算法

根据客户对商品的购买发现商品之间的相关性。 例如关联规则,这类分析方法可以方便地展现产品与产品之间的相关关系。 “啤酒与尿布”是最著名的使用关联规则的案例之一。 零售超市通过分析客户购买清单发现,啤酒...
阅读全文
举例说明什么是样本聚类算法 数据分析

举例说明什么是样本聚类算法

举例说明什么是样本聚类算法 根据个体之间的相似性对个体进行分类,即样本聚类算法。这种算法被大量使用在客户细分场景中。如图1-1所示,根据信用卡客户6个月内的循环信用次数和交易次数,将客户分为6个细分群...
阅读全文

爬虫的合法性与robot.txt协议

1. 爬虫的合法性 网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。 目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。...
阅读全文

深层网络爬虫的基本原理

Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面,以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户...
阅读全文

增量式网络爬虫的基本原理

增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的...
阅读全文

举例说明什么是周期性分析

举例说明什么是周期性分析 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚...
阅读全文

对比分析的适用情况

对比分析的适用情况 对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。 特别适用于指标间的横纵向比较、时间序列的比较分析。 ...
阅读全文

数据一致性分析:什么意思

数据一致性分析:什么意思 数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。 在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是...
阅读全文

离群点分析包括:箱型图分析

离群点分析包括:箱型图分析 异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。 箱型图分析 箱型图提供了识别异常值的一个标准:异常值通常被定义为小...
阅读全文