系统聚类分析又称为层次聚类分析,其基本思想是依据样本个案或变量之间的亲疏远近关系,将最相似的对象结合在一起,以逐次聚合的方式,将样本个案或变量进行分类,直到最后所有的样本个案或变量都聚成一类。
在系统聚类中,度量数据之间的亲疏程度是极为关键的。在衡量样本与样本之间的距离时,一般使用的距离有欧氏距离、欧氏平方距离、切比雪夫距离、Block距离、明可斯基距离、夹角余弦等。
衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下7种。
(1)最短距离法:以当前某个样本与已形成小类中各样本距离的最小值作为当前样本与该小类之间的距离。
(2)最长距离法:以当前某个样本与已形成小类中各样本距离的最大值作为当前样本与该小类之间的距离。
(3)类间平均链锁法:两小类之间的距离为两个小类所有样本间的平均距离。
(4)类内平均链锁法:与小类间平均链锁法类似,这里的平均距离是对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对。
(5)重心法:将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。
(6)中间距离法:以两类变量均值之间的距离作为类与类之间的距离。
(7)离差平方和:在聚类过程中,使小类内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。