K平均值聚类的统计原理与基本思想

2021年6月13日17:24:08K平均值聚类的统计原理与基本思想已关闭评论

K平均值聚类是由用户指定类别数的大样本资料的逐步聚类分析方法。它先对数据进行初始分类,然后逐步调整,得到最终分类数。当要聚成的类数已知时,使用K平均值聚类的处理速度快,占用的计算机内存少。

K平均值聚类基本思想是:

把每个样本聚集到其最近形心(均值)类中去,即先对数据进行初始分类,然后逐步调整,得到最终分类。如果选择了 个数值型变量参与聚类分析,最后要求聚类数为 ,那么可以由系统首先选择 个观测量(也可以由用户指定)作为聚类目标, 个变量组成 维空间。

每个观测量在 维空间中是一个点。 个事先选定的观测量就是 个聚类中心点(也称为初始类中心)。按照距这几个类中心的距离(使用的是欧氏距离)最小原则将观测量分派到各类中心所在的类中去,构成第一次迭代形成的 类,根据组成每一类的观测量,计算各变量均值。

每一类中的 个均值在 维空间中又形成 个点,这就是第二次迭代的类中心。按照这种方法依次迭代下去,直到达到指定的迭代次数或达到中止迭代的判据要求时,迭代停止,聚类过程结束。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。