SAS中进行判别分析的目标与过程
判别分析的SAS过程所处理的数据集要求具有一个分类变量和若干个数值型变量。
SAS中进行判别分析的具体目标可以分为以下三条:
• 建立判别函数,以便用来判别某一新的观测值的所属类别;
• 寻找一组数值型变量的线性组合,使得其能够很好的反映各类别之间的差别;
• 筛选出某些能反映类别间差别的变量。
如果假设每个组内的样本全都服从多元正态分布,可以用多元正态分布的理论,即参数法将可以导出一个线性或者二次的判别函数。否则,将采用不基于任何分布的假设的非参数法,来估计类别的密度从而实现分类的功能。非参数检验的方法如下:
• 核密度法(Kernel Method);
• K最邻近法(K Nearest Neighbor Method)。
SAS过程中有DISCRIM过程(一般判别分析)、CANDISC过程(典型判别分析)和STEPDISC过程(逐步判别分析)。