二值Logistic回归的基本思想

2021年6月12日10:38:17二值Logistic回归的基本思想已关闭评论

二值Logistic回归的基本思想

Logistic 回归(logistic regression)是分析一个二分因变量与一个或以上的自变量的关系的统计方法。因变量只有两种可能的结局即必须为二分变量或二进制变量,其编码只能为1(有、真、疾病、成功、出现等)或0(无、假、健康、失败、未出现等)。

设P为某事件发生的概率,取值范围为0~1,如疾病患病与否;1-P为该事件不发生的概率,将比数P/(1-P)取自然对数得ln[P/(1-P)],即对P做lg变换,记为lgP,则lgP的取值范围为-∞~+∞。以logitP为因变量,建立线性回归方程

二值Logistic回归的基本思想

经变换,得到以下公式:

二值Logistic回归的基本思想

以上模型即为Logistic回归模型。实际上,该模型为普通多元线性回归模型的推广,但它的误差项服从二项分布而非正态分布,因此在拟合时采用最大似然估计法进行参数估计。

模型中的β是与诸因素xi无关的常数项,表示自变量取值全为0时,比数(Y=1与Y=0的概率之比)的自然对数值,参数β1,β2,…,βm是logistic回归系数,即流行病学中常用的统计指标——优势比(Odds Ratio,OR,比值比)的对数,因此,βi的意义是当其他自变量取值保持不变时,因素xi每改变一个测量单位时所引起的优势比的自然对数改变量。

logistic回归的所有统计推断都建立在大样本基础上,要求有足够的样本含量。

一般认为logistic回归的例数最少为N=10k/p(p为人群中阳性或阴性比例的较小者;k为协变量数,或称自变量数)。例如,模型中有3个协变量,人群中阳性个案的比例为0.2(20%),那么N=10×3/0.20=150。如果N<100,则建议N至少为100。对于配对资料,样本的匹配组数应为纳入方程中的自变量个数k的20倍以上,即20k。

 

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。