两步聚类方法是设计用来分析大型数据集的算法。
这个算法会用标准方法将不同的观察结果分组到不同的集群之中。这个过程会使用一个凝聚的层次聚类方法。
目前主要应用在数据挖掘和多元数据统计的交叉领域—模式分类中,其算法适合任何尺度的变量。
两步聚类分析主要利用距离度量,假设聚类模型的变量均为自变量,假设自变量中连续性变量为正态分布,分类变量是多项式。
该过程主要有以下几个特点:
分类变量和连续变量均可以参与两步聚类分析;
该过程可以自动确定分类数;
可以高效率地分析大数据集;
用户可以自己定制用于运算的内存容量。