在很多情况下,因变量是否存在断尾或者截取不是由自己决定的,而且取决于其他的变量。比如我们要分析一群人年薪的影响因素,那么就会产生这一问题,因为只有参与劳动的人才能获得年薪,如果一个人没有参与劳动就无法获得年薪。所以针对这一类问题,我们不宜简单使用普通最小二乘回归分析进行估计,最好使用本节介绍的样本选择模型。其基本思路是首先基于一些自变量进行样本选择,将预期能够观测到因变量的样本选择出来,然后分析因变量的影响因素,也就是两步法。
样本选择模型分析的Stata操作
样本选择模型分析的命令为heckman,该命令的语法格式为:
heckman depvar [indepvars], select(varlist_s)[twostep] 或者
heckman depvar [indepvars], select(depvar_s = varlist_s)[twostep]
heckman为命令,depvar为因变量,indepvar为自变量。选项select()用于确定选择方程的因变量及自变量,为必填项。针对第一种命令形式,如果不设置选择方程的因变量,则Stata默认原方程的被解释变量depvar为非缺失值时表示被选择,为缺失值时表示没有被选择。针对第二种命令格式,需要设置选择方程的因变量depvar_s,则要求depvar_s的值必须为0或1。0表示原方程的被解释变量没有被选择,1表示被选择。
[twostep]为可选项,若不选,则表示采用最大似然估计的heckman回归;若选用,则表示采用两步法的heckman回归。
最大似然估计的heckman回归的完整语法格式为:
heckman depvar [indepvars] [if] [in] [weight], select([depvar_s =] varlist_s[,noconstant offset(varname_o)])[heckman_ml_options]
两步法的heckman回归的完整语法格式为:
heckman depvar [indepvars] [if] [in], twostep select([depvar_s =] varlist_s[,noconstant])[heckman_ts_options]
使用heckman回归分析方法时还可以使用vce()选项,利用各种稳健的标准差进行估计。比如可以使用vce(robust)获得稳健标准差,或利用vce(cluster varname)获得聚类稳健标准差。
使用heckman回归分析方法同样可以进行预测,相应的命令及其语法格式为:
predict [type] newvar [if] [in] [,statistic nooffset]
statistic选项包括表10.4所示的几项。