划分聚类分析方法的基本思想是将观测到的样本划分到一系列事先设定好的不重合的分组中。划分聚类分析方法在计算上相比层次聚类分析方法相对简单,而且计算速度更快一些,但是它也有自己的缺点,它要求事先指定样本聚类的精确数目,这与聚类分析探索性的本质是不相适应的。
划分聚类分析方法包括两种:一种是K个平均数的聚类分析方法,此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的平均数的组,然后找出这些聚类;另一种是K个中位数的聚类分析方法,此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的中位数的组,然后找出这些聚类。
K平均值聚类分析:
K平均值聚类分析可以分析小数据文件,也可以分析大数据文件,但只限于连续数据,要求预先指定聚类数目。K平均值聚类分析方法的基本思路是:开始按照一定方法选取一批初始聚类中心,让样品向最近的聚心凝聚,形成初始分类,然后按照最近距离原则不断修改不合理的分类,直至合理为止。如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k,那么可以由系统首先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。
每个观测量在n维空间中是一个点,k个事先选定的观测量就是k个聚类中心点,也称为初始类中心。开始的时候按照距这k个初始类中心的距离最小原则把观测量分派到各类中心所在的类中,构成第一次迭代形成的k类。然后根据组成每一类的观测量计算各变量的均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心。按照这种方法依次迭代下去,直到达到指定的迭代次数或达到终止迭代的收敛条件时迭代停止,聚类过程结束。