多元统计分析与大数据的关系:多元分析在大数据领域的作用
多元统计分析简称多元分析,是从经典统计学中发展起来的一个分支,是数理统计学中的一个重要的分支学科,是一种综合分析方法。
20世纪30年代,R.A.费希尔、H.霍特林、许宝碌及S.N.罗伊等人做了一系列奠基性的工作,使多元分析在理论上得到迅速发展。
20世纪50年代中期,随着电子计算机的发展和普及,多元分析在地质、气象、生物、医学、图像处理及经济分析等领域得到了广泛的应用,同时也促进了理论的发展。
多元分析在大数据分析中有非常广泛的应用,能够在多个对象和多个指标互相关联的情况下分析出它们的统计规律。
多元分析的主要方法包括回归分析、判别分析、聚类分析、主成分分析(Principal Component Analysis,PCA)、因子分析及典型相关分析等。
这些分析方法在大数据领域都有着非常广泛的应用,其中,回归分析中的一元或多元线性回归可用于预测连续型数据,如股票价格预测和违约损失率预测等;
判别分析与回归分析中的逻辑回归可用于预测类别型数据,这些数据通常都是二元数据,如欺诈与否、流失与否、信用好坏等;
聚类分析是在不知道类标签的情况下将数据划分成有意义或有用的类,如客户细分等;
主成分分析与因子分析都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,在大数据分析中常被用于对数据进行降维;
利用典型相关分析方法可以快捷、高效地发现事物间的内在联系,如某种传染病与自然环境或社会环境的相关性等。