层次聚类分析只限于较小的数据文件,一般来说适合聚类的对象只有数百个的情形。
层次聚类分析过程的特色化功能包括:
一是能够对个案或变量进行聚类;
二是能够计算可能解的范围,并为其中的每一个解保存聚类成员;三是有多种方法可用于聚类形成、变量转换以及度量各聚类之间的非相似性。只要所有变量的类型相同,层次聚类分析过程就可以分析连续、计数或二值变量。
层次聚类分析开始将样品或指标各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有样品(或指标)合并为一类为止。
层次聚类分析根据聚类过程不同又分为分解法和凝聚法:
分解法指的是聚类开始时把所有个体(观测量或变量)都视为一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。
凝聚法是聚类开始时把参与聚类的每个个体(观测量或变量)视为一类,根据2类之间的距离或相似性逐步合并,直到合并为一个大类为止。无论哪种方法,其聚类原则都是相近的聚为一类,即距离最近或最相似的聚为一类。