SPSS软件的分层聚类:基本原理
分层聚类法也称为系统聚类分析,它是聚类分析中应用最广泛的一种方法。分层聚类的思想是:开始将样品或指标各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有样品(或指标)合并为一类为止。根据聚类过程的不同又分为分解法和凝聚法。分解法指的是聚类开始时把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。凝聚法是聚类开始时把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。无论哪种方法其聚类原则都是相近的聚为一类,即距离最近或最相似的聚为一类。
在SPSS官方网站的帮助文档《 IBM_SPSS_Statistics_Base 》中,对于系统聚类分析的应用条件还进行了特别指导。
数据方面,参与系统聚类分析的变量可以是定量数据、二元数据或计数数据。变量定标是一个重要问题,定标之间的差异可能会影响用户的聚类解。
如果变量在定标上有很大差异(如一个变量以美元为单位度量,而另一个以年数为单位度量),则应考虑对它们进行标准化(这可以通过“系统聚类分析”过程来自动完成)。个案顺序方面,如果相同的距离或相似性存在于输入数据中或产生于连接过程中更新的聚类之间,则作为结果产生的聚类解会取决于文件中个案的顺序。
用户在很多情况下可能想要通过不同随机顺序排序的案例来得到多个不同的解,以验证给定解的稳定性。假设条件方面,用户所用的距离或相似性测量应适合所分析的数据,并且应在分析中包含所有相关变量,遗漏有影响的变量会产生错误的解。
因为系统聚类分析是一种探测性的方法,所以其结果应被视为试探性的,直至用独立样本加以确认。