Stata软件的截取回归模型:基本原理
截取问题是指在特定范围内,解释变量受到限制,真实取值无法观测到,通常情况下,在某一范围内被解释变量的取值都被记为某一常数c。例如,在统计一个家庭每月网上购物情况时,支出大于2000元的家庭选择“网购金额在2000元以上”这一选项,这样无法确定这些家庭的具体网购金额,而把这一范围的值压缩到2000上了。
当被解释变量为截取数据时,一定范围的数据被压缩到一个点上,这样被解释变量y的概率分布就变成由一个离散点与一个连续分布所组成的“混合分布”。在这种情况下,可以证明,如果用OLS来估计,那么无论使用的是整个样本,还是去掉离散点后的子样本,都不能得到一致的估计。
例如,Tobit模型表现为如下形式:
在上述公式中,若 di >0,则d i =1,否则取值为0;若d i =1,则y i = yi ,否则取值为0,这时的最大似然方程如下:
利用导数法对β和σ最大化,从而得到MLE结果。