SPSS软件的距离相关分析:基本原理
偏相关分析通过控制一些被认为次要变量的影响得到两个变量间的实际相关系数,但在实际问题中,变量可能会多到无法一一关心的地步,因为每个变量都携带了一定的信息,彼此又有重叠,所以最直接的方法就是将所有变量按照一定的标准进行分类,即聚类分析。
距离分析便可为聚类分析提供这一标准。
统计学中,常常使用变量之间或样本之间的距离刻画它们的相似程度、亲疏程度,计算变量或样本之间的距离,确定变量的相似性,而距离分析是专门针对样本或变量之间的距离设计的。在实际分析中,我们通常先使用距离分析了解各个样本或变量之间的相似程度和亲疏关系,然后使用其他统计方法对样本或变量进行细致地考察。
距离是对观测量之间或变量之间的相似或不相似程度的一种测度,通过计算一对观测量或变量间的广义距离,将距离较小的变量或观测量归为同类,距离较大的变量或观测量归为其他类别,从而为聚类分析、因子分析等复杂数据集的分析打下基础。假设有 p 个变量 X 1 , X 2 ,…, X p ,它们的m组观测数据资料如表4-1所示。
表4-1 p个变量的m组观测数据
为了将变量或观测量(样品)进行分类,通常使用的一种方法是将样品视为p(或m)维空间的点,并在该空间定义点与点之间的距离,将距离较近的点归为一类,距离较远的点应视为属于不同的类。多元统计中对距离的定义方法有许多种,而这些定义与变量的数据类型有很大关系,我们仅以间隔测度的变量的距离定义作简要的介绍。由于每个样品具有p个变量的值,因此可以把它看成p维欧氏空间中的一个点。这样,m个样品便成为p维欧氏空间中的m个点。用dij表示第i个与第j个样品之间的距离,通常定义距离要满足以下4个条件。
(1)对于一切i、j,dij≥0。
(2)对于一切i、j,dij=0Û样本i和样本j的各指标值相等。
(3)对于一切i、j,dij =dji。
(4)对于一切i、j、k,dij =djk+dkj。
与距离分析相关的统计量分为不相似性测度和相似性测度两大类。
(1)不相似性测度
不相似性测度主要通过分析变量间的不相似程度对变量进行分类。包括:
● 定距数据。包括欧氏距离、平方欧式距离、Chebychev(切比雪夫)、块、Minkowski(明可夫斯基)或定制等方法。
● 计数数据。包括卡方测量和phi平方测量两种测度方法。
● 二分类数据。包括欧氏距离、平方欧式距离、尺度差分、模式差分、方差、形状或Lance和Williams等测度方法。
(2)相似性测度
相似性测度方法,与不相似性测度相反。相似性测度通过计算变量之间的相似系数从而将变量进行分类。包括:
● 定距数据。包括Pearson相关和余弦两种测度方法。
● 二分类数据。包括Russell和Rao、简单匹配、Jaccard、切块、Rogers和Tanimoto、Sokal和Sneath 1、Sokal和Sneath 2、Sokal和Sneath 3、Kulczynski 1、Kulczynski 2、Sokal和Sneath 7、Hamann、Lambda、Anderberg的D、Yule的Y、Yule的Q、Ochiai、Sokal和Sneath 5、phi 7点相关或离差等20多种测度方法。
相似性测度与不相似性测度方法的详细介绍将在接下来的实验操作中给出。SPSS软件可以用来进行距离分析,距离分析不会给出常用的 p 值,而是只给出各变量间的距离大小,由用户自行判断其相似的程度。