SPSS二元Logistic回归分析:基本原理
在现实世界中,经常需要判断一些事情是否将要发生,例如候选人是否会当选、医生告知病人是否患有冠心病、某人的生意是否获得成功。类似问题的特点是因变量只有两个值,即发生(是)或不发生(否),这就要求建立的模型必须保证固变量的取值是0或1。可是,大多数模型的因变量值常常处于一个实数集中,与因变量只有两个值的条件相悖。
因为一般回归分析要求直接预测因变量的数值,要求因变量呈现正态分布,并且各组中具有相同的方差——协方差矩阵。我们这里要介绍另外一种对因变量数据假设要求不高,并且可以用来预测具有两分特点的因变量概率的统计方法——二元Logistic回归模型。
所谓二元Logistic模型,或者说二元Logistic回归模型,就是人们想为两分类的因变量建立一个回归方程,不过概率的取值在0~1之间,而回归方程的因变量取值是在实数集中,这样概率的取值就会出现0~1范围之外的不可能结果。因此,将概率做一个Logit变换,其取值区间就变成了整个实数集,得出的结果就不会有问题了,该方法也被叫作二元Logistic回归。
二元Logistic回归的一般模型如下:
其中 z = b 0 + b 1 x 1 + b 2 x 2 +...+ b p x p ( p 为自变量的个数)。某一事件不发生的概率为Prob(no event)=1-Prob(event),Logistic回归模型的估算使用的是极大似然法和迭代方法。
需要强调的是,在SPSS官方网站的帮助文档《 IBM_SPSS_Regression 》中,对二元Logistic回归分析的应用条件和相关过程还进行了特别指导。
在二元Logistic回归分析对数据的要求方面,因变量应为二分变量,自变量可以是区间级别变量或分类变量。如果自变量是分类变量,则它们应经过哑元变量或指示符编码(过程中有一个选项可自动对分类变量进行重新编码)。
在假设条件方面,SPSS 25.0认为二元Logistic回归分析与判别分析一样,Logistic回归不依赖于分布假设。但是,如果预测变量呈多变量正态分布,则求得的解会更稳定。
此外,与其他形式的回归相同,预测变量中的多重共线性会导致有偏差的估算和夸大的标准误差。如果组成员为真正的分类变量,则该过程最为有效;如果组成员基于连续变量的值(如高智商与低智商),则应考虑使用线性回归以利用由连续变量本身提供的更为丰富的信息。
在相关过程方面,《 IBM_SPSS_Regression 》提示用户使用“散点图”过程过滤数据以获得多重共线性。如果符合多变量正态性和相等方差-协方差矩阵的假设,则使用“判别分析”过程可以更快获得解。如果所有预测变量都是分类变量,则还可以使用“对数线性”过程。
如果因变量是连续的,则用户最好使用“线性回归”过程。
此外,用户还可以使用“ROC曲线”过程绘制通过“Logistic分析”过程保存的概率。