SPSS软件的逐步判别分析:基本原理
逐步判别分析分为两步,首先根据自变量和因变量的相关性对自变量进行筛选,然后使用选定的变量进行判别分析。逐步判别分析是在判别分析的基础上采用有进有出的办法,把判别能力强的变量引入判别式的同时,将判别能力最差的变量别除。最终在判别式中只保留数量不多而判别能力强的变量。
判别分析的数学描述是:有k个总体X1、X2、…、Xk,对应的分布函数分别为F1(x)、F2(x)、…、Fk(x),每个Fi(x)均为m维的分布函数,对于观察到的新样品x的数量特征判断这个样品究竟来自哪一个总体。判别分析不同于聚类分析,它是在研究对象的分类已知的情况下,判断观察到的新样品应该归属于哪一类?要决定新样品的归属,首先需要建立一个判别准则或判法,这个准则可以将不同类型的样品区分开来,而且使得判错率最小,称这一准则为判别函数。
需要特别说明的是,并不是所有的数据都适合判别分析法,即便数据适合,也不是在所有情况下都适宜采用判别分析法。在SPSS官方网站的帮助文档《 IBM_SPSS_Statistics_Base 》中,对“判别分析法”的应用条件进行了特别指导。
数据方面,用户使用的分组变量必须含有有限数目的不同类别,且编码为整数。名义自变量必须被重新编码为哑元变量或对比变量。
假设条件方面,用户用于分析的个案应为独立的。预测变量应有多变量正态分布,组内方差-协方差矩阵在组中应等同。组成员身份假设为互斥的(不存在属于多个组的个案),且全体为穷举的(所有个案均是组成员)。如果组成员身份为真正的分类变量时,则此过程最有效;如果组成员身份基于连续变量的值(如高智商与低智商),则用户需要考虑使用线性回归以利用由连续变量本身提供的更为丰富的信息。
判别分析法的思路:
首先建立判别函数;然后通过已知所属分类的观测量确定判别函数中的待定系数;最后通过该判别函数对未知分类的观测量进行归类。判别分析的内容十分丰富,按照已知分类的多少分成两组判别和多组判别,按照区分总体所用的数学模型分为线性判别和非线性判别,按照判别方法分为逐步判别和序贯判别,按照判别准则分为距离判别、贝叶斯(Bayes)判别和费歇(Fisher)判别等。