Stata多重共线性与逐步回归法:基本原理
多重共线性问题在多元线性回归分析中是很常见的,其导致的直接后果是方程回归系数估计的标准误差变大、系数估计值的精度降低等。多重共线性的问题对于Stata软件来说并不显著,因为Stata会自动剔除完全的多重共线性,但是出于知识的完整性,这里还将介绍Stata对于多重共线性的识别和处理方法。
多重共线性的诊断方法如下。
- 当模型的拟合优度非常高且通过F检验,但多数解释变量都不显著,甚至解释变量系数符号相反时,可能存在多重共线性。
- 对由解释变量所组成的序列组进行相关分析时,如果有些变量之间的相关系数很高,就会反映出可能存在多重共线性。
- 使用命令estatvif对膨胀因子进行计算,当VIF的均值≥2且VIF的最大值接近或者超过10时,通常认为有较为严重的多重共线性。
当确认模型存在多重共线性时,通常有两种解决方法来消除其影响:一种是收集更多的数据,增大样本容量;另一种是通过逐步回归改进模型的形式。在现实研究过程中,增大样本容量的操作不易执行,所以逐步回归法应用得更为广泛。
逐步回归法的基本原理是:
先分别拟合被解释变量对于每一个解释变量的一元回归,并将各回归方程的拟合优度按照大小顺序排列,然后将拟合优度最大的解释变量作为基础变量,逐渐将其他解释变量加入模型中并同时观测t检验值的变化,如果t检验显著,就保留该变量,否则去除,不断重复此过程直到加入所有显著的解释变量。