Stata软件虚拟变量的处理:基本原理
对于定性数据,通常不能将其直接纳入模型中进行回归分析,因为这样的分析并不符合经济学理论,所以这时需要引入虚拟变量进行处理。一般情况下,如果分类变量总共有N类,为了避免多重共线性的出现,通常只引入N-1个虚拟变量。下面将会通过一个简单的例子来介绍引入虚拟变量后模型的实际变化。
例如,在如下的时间序列模型中:
y t =β 0 +β 1 x t +ε t
假设在t 1 时刻,回归方程发生了变化,这时就可以引入如下的虚拟变量D进行分析。
引入虚拟变量后的时间序列模型变为如下形式:
y t =β 0 +β 1 x t +γD t +δD t x t +ε t
为了便于观察和比较,可以将此模型变化一下形式,即将虚拟变量的取值代入,得到如下两个方程:
由此可以看出,当δ=0,即只引入虚拟变量本身时,只会改变模型的截距;当γ=0,即只引入虚拟变量与其他解释变量的互动项时,只会改变模型的斜率;当δ≠0且γ≠0,即两个部分都引入时,斜率和截距都会发生显著变化。虚拟变量就是通过这种方式使模型更加接近现实情况的。