什么是RDD? RDD是一个不可变的分布式对象集合,是Spark中最基本的数据抽象。在代码中,RDD是一个抽象类,代表一个弹性的、不可变的、可分区的、里面的元素可并行计算的集合。 每个RDD都被分为多...
聚类分析在客户细分中的应用
客户细分是客户关系管理中的重要内容。通过对客户进行细分,企业可以更好地识别客户群体,并采取不同的保持策略,以优化客户资源的配置。A公司是一家中小型的商业批发公司,为了对客户进行细分,该公司收集了企业销...
数据分析岗位未来趋势预判
1 从岗位到能力的变迁 当前,提到数据分析,大家更多想到的是数据分析岗位,由专业的人做专业的事。然而随着大数据的普及化,以及各大传统公司的数字化转型,数据分析被更多的人熟知及应用。举个例子:身边的产品...
数据分析的岗位类型
1 取数型数据分析师 取数型数据分析师,侧重于数据整合。工作内容一般围绕着业务所提的临时需求为主,从数据仓库中提取分析所需要的数据,并按照指定格式输出给业务方。 岗位特点: 偏执行层面工作,需要自主思...

什么是决策树分类算法?
决策树是一种依托于策略抉择建立起来的,用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征...
BI团队的常见分类
BI团队的职责 简单来说,BI团队负责的工作包括 获取信息、提炼知识、创造价值。 1.获取信息 · 要保证公司有数据可用,即有合理的关键指标体系,来保证公司业务可以被及时呈现。 · 定期收集问卷、访谈...

什么是基于层次的聚类分析?
基于层次的聚类分析通过对样本数据的递归划分创建一个相应的树状结构层次进行聚类。对于样本数据的划分,可以采用自下而上的凝聚策略,也可以采用自上而下的分裂策略。具体而言,自下而上的凝聚式聚类首先将数据集中...
序列模式分析的分类
一、序列模式分析的概念 序列模式挖掘(Sequential Pattern Mining,SPM)是指从序列数据库中寻找频繁子序列作为模式的知识发现过程,它是数据挖掘的一个重要的研究课题,在很多领域都...
数据关联规则分析的建模
(1)数据。 关联规则分析用到的基本数据集记为 D ,它由事务构成,一般多储存于事务数据库中,表示为 D ={ t 1 , t 2 ,…, t m ,…, t q },其中 t m ( m =1,2,...
数据关联分析可以分为哪几种类型?
一、数据关联分析的基本概念 数据关联分析(Data Association Analysis)又称数据关联挖掘,是数据挖掘(Data Mining)中一项基础又重要的方法,旨在挖掘隐藏在数据间的相互关...
数据关联分析的应用:“啤酒与尿布”的故事
关联分析中最有名的案例是“啤酒与尿布”的故事,沃尔玛超市的“啤酒与尿布”案例正式刊登在1998年的《哈佛商业评论》上面。 该故事发生在20世纪90年代的美国沃尔玛超市,沃尔玛超市的管理人员分析销售数据...

什么是关联分析模型?
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性...

什么是KANO分析模型?
KANO模型是东京理工大学教授狩野纪昭(Noriaki Kano)发明的对用户需求分类和优先排序的有用工具,该模型是受行为科学家赫兹伯格的双因素理论启发而提出的,体现了产品性能和用户满意之间的非线性关...
商业数据分析的典型方法有哪些?
数据对于商业中的决策者来说非常重要,不同领域的企业都在寻求利用数据的最佳方案。零售领域发展非常迅速,数据的应用也相当全面,例如零售商会分析数据并发展特殊的客户画像,以了解零售商的痛点,对大数据的全面分...

什么是数据分析采用的象限分析法?
象限分析法是指以两个或多个维度为坐标并划分出不同象限,不同象限表示不同的价值导向。象限分析法是典型的策略驱动思维,常见于市场分析、产品分析、客户管理等。 例如,图1-2所示为一个购物平台分析客户群体的...
什么是数据分析采用的对比分析法?
对比分析法是指通过对比两组或多组数据来直观地体现事物的差异或变化,这是一种很常见的分析方法。 对比分析法首先要根据问题确定对比的指标,例如分析一款软件在计算机和手机上的注册用户情况,可以比较注册用户数...
什么是数据分析采用的公式拆解法?
公式拆解法是指对某一指标用公式层层拆解并分析其影响因素。公式拆解法借助公式的形式,对影响指标的因素层层抽丝剥茧,最终找出核心问题的所在。使用公式拆解法时,需要先确定表明问题的关键指标,然后层层拆解。如...
如何评价特征子集的好坏?如何制定特征选择的停止准则?
如何评价特征子集的好坏 答案: 有比较多的评价函数可以用于评价特征子集的好坏,评价函数主要用来度量一个特征(或者特征子集)可以区分不同类别的能力,使用不同的度量方法最终得到的特征子集也不一样。一个特征...
有哪些方法可以用于生成候选特征子集?各有什么特点?
特征选择不仅可以减少特征数量、降维,使模型泛化能力更强,减少过拟合,还可以增强对特征和特征值之间的理解。 我们需要区别两个概念,一个是特征选择(feature selection),是指从 n 维空间...
基于特征选择的数据降维方法有哪些?
特征选择不仅可以减少特征数量、降维,使模型泛化能力更强,减少过拟合,还可以增强对特征和特征值之间的理解。 我们需要区别两个概念,一个是特征选择(feature selection),是指从 n 维空间...