多重共线性所产生的问题与后果:举例说明
当回归模型中两个或两个以上的变量之间彼此线性相关时,称回归分析中存在多重共线性。在实际问题的研究过程中,自变量之间存在多重共线性是很常见的。当研究的经济问题涉及时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,容易存在共线性。
例如,研究我国城镇居民的消费状况时,影响居民消费的因素有很多,一般有职工平均工资、银行利率、全国零售物价指数、国债利率、货币发行量、居民储蓄额等,这些因素显然既对居民的消费产生重要影响,同时彼此之间又存在很强的相关性。即便是利用截面数据建立的回归方程,也常常因为变量选取和数据获取等因素造成高度相关的情况。
例如,研究某地区粮食产量的模型时,讨论以粮食的产量为因变量 y ,以农民的农业资金投入 x 1 、肥料支出费用 x 2 和浇水面积 x 3 之间的关系。从单独因素来看,三者都是影响粮食产量的重要因素。但是综合进行分析就会发现,农民的农业资金投入 x 1 已经用肥料支出费用 x 2 和浇水面积 x 3 表达出来,从而造成多重共线性。去除农民的农业资金投入 x 1 ,再进行回归,会发现模型的拟合结果和预测的效果都比之前理想很多。
回归方程中变量之间多重共线性的存在会造成回归结果的混乱,做出错误的拟合。
在实际问题的研究中,回归模型存在完全共线性的可能性并不大,经常遇到的是存在近似共线性的情况。一般来讲,自变量之间的相关程度越高,多重共线性就越严重,回归系数估计值的方差越大,回归系数的置信区间就越宽,估计的精度就会大幅下降,使估计值的稳定性变差,进一步导致回归方程整体高度显著时,一些回归系数通不过显著性检验,回归系数的正负号与预期估计的符号相反,造成无法解释回归方程等问题。
利用模型去做经济分析时,要尽可能避免多重共线性。利用模型进行经济分析,只要保证自变量的相关模型在未来时期保持不变,即使回归模型中包含严重的多重共线性,也可以得到较好的预测结果,如果不能保证自变量的相关模型在未来时期保持不变,则多重共线会对回归预测产生严重的影响。