Stata软件的二值选择模型:基本原理
当模型研究的问题是人们的选择行为时,如做某件事或者不做,选择A或者非A,被解释变量的取值可以用0和1来代表两种选择。例如,在研究是否购买某只股票时,人们有两种选择:y=1(买)或者y=0(不买),是否购买股票取决于单个股票的趋势、大盘的趋势、个人收入、信息可得性等影响因素,这些影响因素可作为解释变量x。
处理这类问题最为直接的方式就是使用y i = +ε i (i=1,…,n)的线性模型,但是由于对被解释变量没有限制,因此会使得对于y的预测出现大于1或者小于0的情况。为了处理这类情况,就会对函数的形式产生限制,即本节将要介绍的Probit和Logit模型。
Probit模型的表达形式如下:
Pr(y=1|x)=∅(β ' x)
其中,∅为正态分布的概率密度。
Logit模型的表达形式如下:
其中,Logit模型的表达形式是根据“逻辑分布”函数推导得到的。
在二值模型应用中,Logit模型具有逻辑分布的累积分布函数解析表达式,Probit模型没有标准正态分布的表达式,在具体应用中应选择哪个模型,没有具体标准。根据上述概率表达形式可以得到估计适用的似然函数,然后就可以进行参数估计了。
另外,可以使用Stata计算两个模型的边际效应,然后进行比较。注意,在这个非线性模型估计中, 并不表示边际效应,只是表示解释变量影响的方向。
由于标准的Probit模型或者Logit模型的扰动项是服从同方差假设的,但是很多回归模型存在异方差,因此可以使用Stata进行“似然比检验”(LR)来检测异方差的存在。LR检验的结果若接受原假设,则使用同方差模型,否则使用异方差模型。