回归分析的分类

2024年7月10日17:02:10回归分析的分类已关闭评论

1)线性回归

线性回归(Linear Regression)它是人们最为熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的少数几种技术之一。在该技术中,因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)建立因变量( )和一个或多个自变量( )之间的联系。用一个等式来表示它,即:

 

其中: 表示截距, 表示直线的倾斜率, 是误差项。

公式(2—4)可以根据给定的单个或多个预测变量( )来预测目标变量( )的值。

一元线性回归和多元线性回归的区别在于,多元线性回归有一个以上的自变量,而一元线性回归通常只有一个自变量。

线性回归要点:

①自变量与因变量之间必须有线性关系;

②多元回归存在多重共线性,自相关性和异方差性;

③线性回归对异常值非常敏感。异常值会严重影响回归线,最终影响预测值;

④多重共线性会增加系数估计值的方差,使得估计值对模型的轻微变化异常敏感,结果就是系数估计值不稳定;

⑤在存在多个自变量的情况下,可以使用向前选择法、向后剔除法和逐步筛选法来选择最重要的自变量。

2)逻辑回归

逻辑回归(Logistic Regression)用来计算“事件=成功”和“事件=失败”的概率。当因变量 的类型属于二元(1/0,真/假,是/否)变量时,就应该使用逻辑回归。 的值为0或1时,它可以用下面的等式表示。

odds = p/ (1 - p) =某事件发生的概率/某事件不发生的概率

ln(odds) = ln(p/ (1 - p) ) (2—5)

logit(p) = ln(p/ (1 - p) )= b0 + b1*1 + b2*2 + b3*3 + …+ bk*k

其中:odds表示某事件发生与不发生的概率比值, 表示具有某个特征的概率,logit是对数log。

在这里使用的是二项分布(因变量),需要选择一个最适用于这种分布的连结函数。它就是Logit函数。在上述等式中,通过观测样本的极大似然估计值来选择参数,而不是普通回归使用的最小化平方和误差。

逻辑回归要点:

①逻辑回归广泛用于分类问题。

②逻辑回归不要求自变量和因变量存在线性关系。它可以处理多种类型的关系,因为它对预测的相对风险指数使用了一个非线性的logit转换。

③为了避免过拟合和欠拟合,应该包括所有重要的变量。可以使用逐步筛选法来估计逻辑回归。

④逻辑回归需要较大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。

⑤自变量之间应该互不相关,即不存在多重共线性。

⑥如果因变量的值是定序变量,则称这类回归为有序逻辑回归。

⑦如果因变量有多个选项,并且各个选项之间不具有对比意义,则称这类回归为多元逻辑回归。

3)多项式回归

对回归方程(2 —4),如果自变量的指数大于1,那么它就是多项式回归方程(Polynomial Regression)。如下方程所示:

 

在这种回归技术中,最佳拟合线不是直线,而是一个用于拟合数据点的曲线。

多项式回归要点:

①虽然存在通过高次多项式得到较低错误的趋势,但这可能会导致过拟合。需要经常画出关系图来查看拟合情况,并确保拟合曲线正确体现了问题的本质。

②须特别注意尾部的曲线,观察这些形状和趋势是否合理。更高次的多项式最终可能产生怪异的推断结果。

4)其他回归分析方法

根据不同预测需求还有很多其他的回归分析方法,典型的包括逐步回归( Stepwise Regression)、岭回归(Ridge Regression)、套索回归( Lasso Regression)等。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。