admin发表的所有文章 - 统计学之家

SPSS 19.0的启动、注册与运行方式

SPSS 19.0的启动、注册与运行方式 1．启动启动SPSS程序，可以双击图1-5所示的SPSS桌面图标，也可以在“开始”菜单中依次单击“程序→IBM SPSS Statistics→IBM SP...

2020年10月27日已关闭评论

阅读全文

SPSS 19.0的安装程序与步骤

SPSS 19.0的安装程序与步骤运行SPSS 19.0的安装程序后，首先见到的是图1-2所示的准备界面，稍等片刻即进入图1-3所示的安装向导界面，此后为标准的Windows安装过程，一直单击“下一...

2020年10月27日已关闭评论

阅读全文

数据缺失值处理的方法：删除法、替换法、插补法

数据缺失值处理的方法：删除法、替换法、插补法（1）删除法删除法是最简单的缺失值处理方法，根据数据处理的不同角度可分为删除观测样本、删除变量两种。删除观测样本又称行删除法，在R中可通过na.omit...

2020年10月27日 Eviews已关闭评论

阅读全文

什么是R语言：R语言的优点优势

什么是R语言：R语言的优点优势 R语言是一种为统计计算和图形显示而设计的语言环境，是贝尔实验室（Bell Laboratory）的Rick Becker、John Chambers和Allan Wil...

2020年10月27日 Eviews已关闭评论

阅读全文

数据的稳定性和波动性：什么意思

数据的稳定性和波动性：什么意思稳定性和波动性是一对反义词，在数据分析的很多领域，我们都更关注数据的稳定性，比如，在工业生产领域，我们关心产品质量的稳定程度，都不希望产品质量一会儿好一会儿坏。同样，...

2020年10月26日数据分析已关闭评论

阅读全文

如何成为数据分析高手

在工作中接触数据比较多的朋友，由于提高工作效率的需要，或者考虑到职业发展前途，经常会关心一个问题：我怎么样成为一个数据分析高手？这种想法非常自然，如同一个下围棋的人经常会想“我怎么样成为围棋高手”一样...

2020年10月26日数据分析已关闭评论

阅读全文

什么是数据采集：数据采集的难度

什么是数据采集：数据采集的难度数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作。数据采集工作的难度、跨度非常大，有的采集工作非常简单，仅仅是几个简单的邮件、电话，就能够完成数据的采集工作；...

2020年10月26日数据分析已关闭评论

阅读全文

使用序列模型进行数据挖掘的例子

使用序列模型进行数据挖掘的例子下面介绍一个使用序列模型进行数据挖掘的例子。图15-1所示的是超市购物信息数据集，第一列是交易时间，第二列是顾客编号，第三列是购买商品信息，例如，在1993年6月10...

2020年10月26日已关闭评论

阅读全文

支持度与置信度：什么意思、例子案例

支持度与置信度：什么意思、例子案例支持度支持度表示X和Y同时在总数据集中出现的概率。图14-1所示的是顾客序号和顾客购买的商品。其中，顾客1000同时购买了商品A、B和C，顾客2000同时购买了...

2020年10月26日已关闭评论

阅读全文

K-Medoids算法：什么意思、具体方法、优点缺点

K-Medoids算法：什么意思、具体方法、优点缺点 K-Medoids算法看起来和K-Means算法比较相似，但是二者是有区别的，即中心点的选取。在K-Means算法中，我们将中心点取为当前clus...

2020年10月26日数据挖掘已关闭评论

阅读全文

K-Means算法：什么意思、例子案例、优点缺点

K-Means算法：什么意思、例子案例、优点缺点 K-Means 算法是分割式聚类算法中最常用的一种，是一种基于样本均值的计算方法，在聚类的过程中通过计算类中各对象的属性均值，作为类的中心点（重心）。...

2020年10月26日已关闭评论

阅读全文

分层聚类算法：什么意思、例子案例

分层聚类算法：什么意思、例子案例分层聚类算法是对给定的待聚类数据集合进行层次化分解。举一个例子，如图13-9所示的是事件x 1 ～x 5 的距离矩阵。图13-9 其中，x 2 和x 3 的距离为1...

2020年10月26日已关闭评论

阅读全文

什么是互斥聚类与非互斥（重叠）聚类算法

什么是互斥聚类与非互斥（重叠）聚类算法互斥聚类（Exclusive clustering）是指每个对象被指派到单独的单个簇，即数据以独占方式进行分组。因此，如果某个数据属于确定的单个簇，则不能将其包...

2020年10月26日已关闭评论

阅读全文

类别型变量的相似性度量

类别型变量的相似性度量求解类别型变量的相似性，通常有两种计算方法。 ●将属性按照类型分组，每个新的数据集中只包含一种类型的属性；之后对每个数据集进行单独的聚类分析。 ●把混合类型的属性放在一起处理，...

2020年10月26日数据挖掘已关闭评论

阅读全文

什么是相似性度量

什么是相似性度量聚类分析的基本准则是使同一类的个体间距尽可能地小，而不同类的个体间距尽可能地大。因此，在进行聚类分析时，我们需要找到变量之间的相似性。在聚类分析中，变量可以分为数值型变量、类别型变...

2020年10月26日数据挖掘已关闭评论

阅读全文

什么是数据离散化：数据离散化的例子案例

什么是数据离散化：数据离散化的例子案例将数值型变量转换为类别型变量的过程就是数据离散化。数值型变量常常是模型不稳定的原因之一，通常，我们会发现分类模型在训练数据集中的预测准确率很高，但是在测试数据集...

2020年10月25日已关闭评论

阅读全文

数据离散化处理的优点

数据离散化处理的优点将数据离散化处理，有以下4个优点。（1）可精简数据，降低数据的复杂度，让数据更容易被解释。（2）可支持许多无法处理数值型变量的分类算法。例如，贝叶斯分类算法、以关联规则为基础...

2020年10月25日数据挖掘已关闭评论

阅读全文

数据形态的转换：连续性指派

数据形态的转换：连续性指派某些算法并不适用类别型变量建模，比如线性回归、Logistic回归等。这时需要把类别型变量转换成数值型变量，可以使用连续性指派（Continuousness Arbitr...

2020年10月25日数据挖掘已关闭评论

阅读全文

什么是数据一般化：数据一般化的例子

什么是数据一般化：数据一般化的例子数据一般化就是将原来的数据简化处理，使得数据变得精简的过程。例如，图5-72所示的这个例子，图中为会员信息，会员的受教育程度分为大学、高中、初中。我们也可以将会员...

2020年10月25日已关闭评论

阅读全文

数据正规化：什么意思、计算公式、例子案例

数据正规化：什么意思、计算公式、例子案例数据正规化就是将数据重新发布在一个特定范围内（0～1）的过程。因为如果数据单位不同，则数据之间很难做比较，例如，年龄和年薪两项指标，年龄差10岁和年薪差30万...

2020年10月25日已关闭评论

阅读全文