为什么要对数据进行降维?有哪些数据降维方法?

降维是指通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。 降维的结果是图像越来越不清晰,最后只剩下轮廓。 在面对海量数据或大数据进行数据挖掘时,通常会面临“维度灾难”,此时需要进行...
阅读全文

数据分析中应该避免的典型问题有哪些?

数据并不总是有价值的,在数据分析中需要牢记数据有时会对我们有用!下面将讨论一些常见的数据谬论,以帮助大家在数据分析过程中避免它们的发生。最常见的谬论是假设数据集是值得信赖的,直到后来的分析才发现它不是...
阅读全文
什么是描述性统计分析?什么是验证性统计分析? 数据分析

什么是描述性统计分析?什么是验证性统计分析?

1. 描述性统计分析 描述性统计分析是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简单地用几个统计值来表示一组数据的集中趋势、离散程度以及分布形状,如图1.1所示。 ...
阅读全文
结构化数据、半结构化数据与非结构化数据的区别 数据分析

结构化数据、半结构化数据与非结构化数据的区别

结构化数据、半结构化数据与非结构化数据的区别 从数据的结构化程度看,可分为结构化数据、半结构化数据和非结构化数据,三者之间的区别见表3.1。 表3.1 结构化数据、半结构化数据和非结构化数据对比 在小...
阅读全文

什么是购物篮分析和点击流分析

什么是购物篮分析和点击流分析 “购物篮分析”(market basket analysis)指的是关联规则挖掘的一种特定应用,很多公司将其用于多种目的,如下所示。 改进行销的广泛方法——每个月应该在库...
阅读全文

一手数据与二手数据的区别

按照来源的不同,数据分为一手数据和二手数据两种: · 一手数据是通过查找或购买无法获取的,只能通过亲自调研获取,相应的采集方法是实地调查。 · 二手数据是别人已经整理出来的,只要查找或购买就能获取,相...
阅读全文

数据的时效性、分散性、概率性、再创性

这里所说的数据,仅指应用于企业运营的市场信息。它是认识事物的中间环节,是事物的表面特征,其作用在于消除事物的不确定性。它具有以下四个基本特征。 1 时效性 所谓时效性是指数据的发生和运用要有个提前期,...
阅读全文
因子分析的四个基本步骤 数据分析

因子分析的四个基本步骤

因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。 因子分析通常包括以下四个基本步骤。 1. 确定原有变量...
阅读全文

因子分析的基本思路

因子分析(Factor analysis)是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析的形成和早期发展一般认为是从查尔斯·斯皮尔曼(Charles Spearman)在190...
阅读全文

因子分析与主成分分析的区别

因子分析(Factor analysis)是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析的形成和早期发展一般认为是从查尔斯·斯皮尔曼(Charles Spearman)在190...
阅读全文
举例说明什么是关联规则算法 数据分析

举例说明什么是关联规则算法

根据客户对商品的购买发现商品之间的相关性。 例如关联规则,这类分析方法可以方便地展现产品与产品之间的相关关系。 “啤酒与尿布”是最著名的使用关联规则的案例之一。 零售超市通过分析客户购买清单发现,啤酒...
阅读全文
举例说明什么是样本聚类算法 数据分析

举例说明什么是样本聚类算法

举例说明什么是样本聚类算法 根据个体之间的相似性对个体进行分类,即样本聚类算法。这种算法被大量使用在客户细分场景中。如图1-1所示,根据信用卡客户6个月内的循环信用次数和交易次数,将客户分为6个细分群...
阅读全文

操作层面的数据分析对象与成果

数据分析是为达到业务目标而进行的一系列有目的、有步骤的操作。 (1)数据 数据是客观事物属性的取值,是信息的具体描述和表现,是信息的载体。在计算机系统中,凡能被计算机所接收和处理的字符、数字、图形、图...
阅读全文

爬虫的合法性与robot.txt协议

1. 爬虫的合法性 网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。 目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。...
阅读全文

深层网络爬虫的基本原理

Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面,以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户...
阅读全文

增量式网络爬虫的基本原理

增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的...
阅读全文

聚焦(主题)网络爬虫的爬取策略

聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬取与预设的主题相关的页面。与通用网络爬虫相比,聚焦爬虫仅需爬取与主题相关的页面,极大地节省硬件及网络资源,能更快地更新保存的页面,更好地满足...
阅读全文

通用网络爬虫(全网爬虫)的爬取策略

通用网络爬虫又称全网爬虫,其爬取对象由一批种子URL扩充至整个Web,主要由搜索引擎或大型Web服务提供商使用。这类爬虫的爬取范围和数量都非常大,对于爬取的速度及存储空间的要求都比较高,而对于爬取页面...
阅读全文

举例说明什么是周期性分析

举例说明什么是周期性分析 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚...
阅读全文