SPSS软件的K-均值聚类:基本原理
K-均值聚类法(K-Means Cluster)的思想是,首先按照一定的方法选取一批聚类中心(Cluster Center),让样品向最近的聚心凝聚形成初始分类,然后按最近距离原则不断修改不合理分类,直至合理为止。
如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k,那么可以由系统先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是一个点。k个事先选定的观测量就是k个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在的类中,构成第一次迭代形成的k类。
根据组成每一类的观测量,计算各变量均值。每一类中的n个均值在n维空间中又形成k个点。这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或达到终止迭代的判据要求时,迭代停止,聚类过程结束。由于K-均值聚类法计算量小、占用内存少并且处理速度快,因此比较适合处理大样本的聚类分析。
在SPSS官方网站的帮助文档《 IBM_SPSS_Statistics_Base 》中,对于K-均值聚类分析的应用条件还进行了特别指导。
数据方面,参与K-均值聚类分析的变量应在区间或定比级别上是定量的。如果用户的变量是二分类变量或计数变量,则使用“系统聚类分析”过程为佳。
在个案和初始聚类中心顺序方面,用户用于选择初始聚类中心的缺省算法对个案顺序不是保持不变的。在“迭代”对话框中的“使用运行平均值”选项使结果解与个案顺序潜在相关,而不管初始聚类中心是如何选择的。
如果用户使用这些方法中的任一种,就可能要使用以不同的随机顺序排序的个案获取多个不同的解,以验证给出解的稳定性。指定初始聚类中心且不使用“使用运行平均值”选项将避免与个案顺序相关的问题。然而,如果从个案到聚类中心有固定距离,则初始聚类中心的排序方式可能会影响解。要获得给定解的稳定性,可以将分析的结果与初始中心值的不同排列相比较。
假设条件方面,使用简单欧式距离计算距离。如果想要使用其他距离或相似性测量,则需要使用“系统聚类分析”过程。变量定标是一个重要的注意事项。如果以不同的标度测量变量(例如一个变量以美元为单位,而另一个以年为单位),则结果可能会令人误解。
在此类情况下,用户应考虑在执行K平均值聚类分析之前对变量进行标准化(此任务可在“描述”过程中完成)。此过程假设用户已选择合适数目的聚类,且已包含所有相关变量。如果用户选择的聚类数量不合适或遗漏了重要的变量,则结果可能会令人误解。