普通二乘回归(OLS回归)的基本思想
线性回归(linear regression)又称普通二乘回归(ordinary least squares regression),简称OLS回归,是基于最小二乘法(least square method)原理生成古典统计假设下的最优线性无偏估计,是研究一个或多个自变量与一个因变量之间是否存在某种线性关系的统计方法。在OLS回归中,估计方程为使样本数据点与预测值之间的距离平方和最小化的方程。
如果引入回归的自变量只有一个,则称为简单或直线回归(simple linear regression),所得方程为直线回归方程,即
式中,Y是因变量的估计值;X是自变量;b是回归方程的常数项(intercept,截距);b1是回归系数(regression coefficient)。
OLS回归应满足OLS假设,这些假设包括:
①回归模型的系数为线性系数;
②残差的平均值为0;
③所有自变量都与残差不相关;
④残差之间互不相关(序列相关);
⑤残差具有恒定方差;
⑥自变量间互不完全相关(r=1),或者避免不完全的高度相关(多重共线性);
⑦残差呈正态分布。
由于仅当所有这些假定都满足时,OLS回归才会提供最佳估计值,因此检验这些假设极为重要。常用方法包括检查残差图、使用失拟检验以及使用方差膨胀因子(VIF)检查自变量之间的相关性。