Stata软件的断尾回归模型:基本原理
断尾问题指的是观测数据仅来自于总体样本的一部分,只有在某个特殊值之上或之下的观测值才能被观测到。例如,在统计家庭收入时,只统计了年收入大于10000元的家庭,年收入为0~10000元的家庭个体样本不能被观察到,这样就造成了“左端断尾”。
假设观测到的被解释变量y的数据是在a点左断尾的,它只能在 y>a 的范围内取值,可以证明,存在断尾的情况下,普通最小二乘是有偏差的。但MLE可以得到一致的估计,例如,当被解释变量左端断尾时,x服从均值为u和方差为 σ 的正态分布,其条件密度函数为:
其中, ϕ 是标准正态分布的概率密度函数, Φ 是标准正态分布的累积分布函数,由此,可以计算出整个样本的似然函数,然后使用极大似然估计法进行估计。