Stata软件极端数据的诊断与处理:基本原理
在全体观测值中,会有一些样本和总体样本距离较远,这些样本在回归中可能会对斜率或者截距的估计产生较大的影响,从而使得估计值和真值的差距较大。所以在实际应用中,首先应通过绘制散点图的方式观测是否有极端数值的存在,如果有,就应该去掉这些极端数值再进行回归分析。
如果解释变量过多或者是面板数据,那么绘图的方式并不直观,通常使用leverage影响力方法来判断该数据是否是极端数据。若数据的leverage影响力值高于平均值,则对回归系数影响较大,这时可能会产生极端数据的影响。