什么是RDD? RDD是一个不可变的分布式对象集合,是Spark中最基本的数据抽象。在代码中,RDD是一个抽象类,代表一个弹性的、不可变的、可分区的、里面的元素可并行计算的集合。 每个RDD都被分为多...
元组与列表的区别
我们可以通过把若干元素放在一对圆括号中创建元组,如果元组中只有一个元素,则需要多加一个逗号,例如(3,);也可以使用tuple()函数把列表、字典、集合、字符串以及range对象、map对象、zip对...
经济统计学中的“肥尾”现象是什么意思?
肥尾现象:极端气候的经济学分析 2021年以来,全球极端天气频繁爆发。2月,美国南部多地迎来极寒天气,得克萨斯州遭遇百年一遇的暴风雪寒流,出现零下数十摄氏度低温,450万家庭断电。春季,加州等地又出现...
聚类分析在客户细分中的应用
客户细分是客户关系管理中的重要内容。通过对客户进行细分,企业可以更好地识别客户群体,并采取不同的保持策略,以优化客户资源的配置。A公司是一家中小型的商业批发公司,为了对客户进行细分,该公司收集了企业销...

什么是有监督异常检测?什么是半监督异常检测?
什么是异常检测 异常检测(Anomaly Detection,或Outlier Detection)指对业务数据集中不符合常态分布或预期模式的数据进行识别的过程,其中异常(Outlier)也被称为离群...
关注数据代表性:二战期间统计学家改良轰炸机
1“二战”盟国轰炸德国损伤惨重 这个故事发生在“二战”期间。1943年,美国和英国联手对德国本土的主要工业城市进行轰炸,双方约定,美国负责在白天攻击德国,英国则负责在晚上偷袭德国。英美盟军本来是一支实...
社会调查研究的类型
1 按研究的目的分 (1)探索性研究 探索性研究的基本目的是提供一些资料以帮助研究者认识和理解所面对的问题,常常用于在一种更正式的研究之前帮助研究者将问题定义得更准确些,帮助确定相关的行动路线或获取更...
什么是维吉尼亚密码?
维吉尼亚密码(Vigenère Cipher)是一种以凯撒密码为基础组成的多表代换密码,该密码其实是由吉奥万 - 巴蒂斯塔 ·贝拉索(Giovan Battista Bellaso)发明的,但被误以为...
什么是凯撒密码(凯撒加密)?什么是移位密码?
凯撒密码(Caesar Cipher)也称凯撒加密,是一种最简单且广为人知的经典加密技术,许多人都用过类似的方法传递信息。同时它也是所有人入门密码学接触的第一种密码,是历史上已知最早的密码之一,距今已...

市场数据调研分析的四大要素(SPCE)
市场数据调研分析的四大要素是指环境(Environment)、客户(Customer)、产品(Production)、场所(Spot),简称SPCE,即每个单词的第一个字母的组合,其包含的主要内容如图...
数据分析岗位未来趋势预判
1 从岗位到能力的变迁 当前,提到数据分析,大家更多想到的是数据分析岗位,由专业的人做专业的事。然而随着大数据的普及化,以及各大传统公司的数字化转型,数据分析被更多的人熟知及应用。举个例子:身边的产品...
数据分析的岗位类型
1 取数型数据分析师 取数型数据分析师,侧重于数据整合。工作内容一般围绕着业务所提的临时需求为主,从数据仓库中提取分析所需要的数据,并按照指定格式输出给业务方。 岗位特点: 偏执行层面工作,需要自主思...
数据库系统的分类
从数据库终端用户角度看,数据库系统按照体系结构的不同可分为单用户数据库系统、主从式数据库系统、分布式数据库系统和客户/服务器(Client/Server,简称C/S)结构的数据库系统。 1.单用户数据...
层次数据模型有哪些优点缺点?
20世纪60年代以前,人们采用文件系统进行数据管理,这种方式以分散、互相独立的数据文件为基础,不可避免地存在数据冗余、数据不一致、处理效率低等问题。这些问题在较大规模的系统中尤为突出。 美国在20世纪...
抽样调研的特点与适用范围
众所周知,市场调研的对象包括国家或地区的人口、环境资源、社会经济、政治现状,甚至于人们的意向及对各种问题所持的态度等。要对这千差万别的个体进行调研,通常可以采用如下几种调研形式:全面调研、重点调研、典...
典型Web数据挖掘技术有哪些?
什么是Web数据挖掘 Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中发现和抽取感兴趣的、有用的模式和隐含信息,是在分析大量数据的基础上,进行归纳性推理,从而预...
Web数据挖掘的类型及流程
1 什么是Web数据挖掘 Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中发现和抽取感兴趣的、有用的模式和隐含信息,是在分析大量数据的基础上,进行归纳性推理,从...
回归分析的分类
1)线性回归 线性回归(Linear Regression)它是人们最为熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的少数几种技术之一。在该技术中,因变量是连续的,自变量(单个或多个)可...

什么是决策树分类算法?
决策树是一种依托于策略抉择建立起来的,用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征...
聚类算法的分类
1 什么是聚类 聚类(clustering) 就是将具体或抽象对象的集合分成由相似对象组成的多个类或者簇的过程。 由聚类生成的簇是一组数据对象的集合,簇必须同时满足两个条件。第一个条件是每个簇至少包含...