断尾回归分析的功能与意义
断尾回归分析是对因变量只有大于一定数值或者小于一定数值时才能被观测到的一种回归分析方法。或者说,观测数据仅来自于总体样本的一部分,只有在某个特殊值之上或之下的观测值才能被观测到。所以,因变量的取值范围是受到限制的,不可能取到范围之外的数值。举例来说,如果研究某单位的薪酬情况,把年薪作为因变量,那么该因变量的取值范围就大于0,小于0是不可能的,没有实际意义。
在因变量符合断尾特征时,通过一般的最小二乘回归分析得到的结论是不完美的,但是通过极大似然估计方法(Maximum Likelihood Estimate,MLE)可以得到一致的估计。极大似然估计方法最早于1821年由德国数学家C. F. Gauss(高斯)提出。
假设因变量为 y ,数据在 M 点左断尾,且自变量 x 服从均值为 u 和方差为 的正态分布,其条件密度函数为:
在上述公式中, 是标准正态分布的概率密度函数, 是标准正态分布的累积分布函数,基于此可以计算出整个样本的似然函数,然后使用极大似然估计法进行估计。