K平均值聚类是由用户指定类别数的大样本资料的逐步聚类分析方法。它先对数据进行初始分类,然后逐步调整,得到最终分类数。当要聚成的类数已知时,使用K平均值聚类的处理速度快,占用的计算机内存少。
K平均值聚类基本思想是:
把每个样本聚集到其最近形心(均值)类中去,即先对数据进行初始分类,然后逐步调整,得到最终分类。如果选择了 n 个数值型变量参与聚类分析,最后要求聚类数为 k ,那么可以由系统首先选择 k 个观测量(也可以由用户指定)作为聚类目标, n 个变量组成 n 维空间。
每个观测量在 n 维空间中是一个点。 k 个事先选定的观测量就是 k 个聚类中心点(也称为初始类中心)。按照距这几个类中心的距离(使用的是欧氏距离)最小原则将观测量分派到各类中心所在的类中去,构成第一次迭代形成的 k 类,根据组成每一类的观测量,计算各变量均值。
每一类中的 n 个均值在 n 维空间中又形成 k 个点,这就是第二次迭代的类中心。按照这种方法依次迭代下去,直到达到指定的迭代次数或达到中止迭代的判据要求时,迭代停止,聚类过程结束。