什么是相似性度量 - 统计学之家

2020年10月26日09:33:21已关闭评论

什么是相似性度量

聚类分析的基本准则是使同一类的个体间距尽可能地小，而不同类的个体间距尽可能地大。因此，在进行聚类分析时，我们需要找到变量之间的相似性。

在聚类分析中，变量可以分为数值型变量、类别型变量及二元变量等。数值型变量可以是连续的测量值，比如身高、体重、体温等，在数值型变量中，各个数值的重要性是相等的。而例如眼睛的颜色（蓝色、黑色、褐色）等就是类别型变量，这种变量在分析中可以被编码为1,2,…,n，不过编码的大小没有实际意义。例如客户对于一件商品的满意度有：1=厌恶，2=不喜欢，3=一般，4=喜欢，5=非常喜欢……就是顺序型变量，其编码大小是有实际意义的，但是编码的大小并不是顺序型变量中的实际大小。二元变量是指变量只有两种状态，比如性别有男和女。

登录 找回密码

登录找回密码