Stata软件遗漏变量的检验:基本原理
遗漏变量属于解释变量选取错误的一种,因为某些数据确实难以获得,但是有时这种遗漏将会大大降低模型的精确度。假设正确模型如下:
Y=β 0 +X 1 β 1 +X 2 β 2 +u i
如果在模型设定中遗漏了一个与被解释变量相关的变量X 2 ,即所设定的模型为:
Y=β 0 +X 1 β 1 +u i
通过这两个方程的对比不难发现,在实际研究过程中,将遗漏变量X 2 β 2 纳入了新的扰动项u i 中。遗漏变量的影响有3种情况:
- 一是遗漏的变量X 2 只影响被解释变量Y,而不影响解释变量X 1 ,或与解释变量X 1 不具有相关性,则不存在内生问题,这时在大样本理论的支撑下,OLS方法仍然可以得到β 1 的一致估计,只是估计的精确度有所下降。
- 二是遗漏的变量X 2 同时影响被解释变量,也影响解释变量,这时产生内生变量问题,根据大样本理论,OLS方法将得不到一致估计,这种偏差被称为遗漏变量偏差,可能会导致实证研究的较大偏差与谬误。
- 三是遗漏的变量X 2 只影响解释变量,而不影响被解释变量,这时模型估计不存在内生问题,但有利于捕捉直接效应与间接效应。
为了避免这种情况的出现,Stata提供了两种检验是否存在遗漏变量的方法:
一种是Link检验;另一种是Ramsey检验。
Link检验的基本思想是:
如果模型的设定是正确的,那么y的拟合值的平方项将不应具有解释能力。
Ramsey检验的基本思想是:
如果模型设定无误,那么拟合值和解释变量的高阶项都不应再有解释能力。