回归分析解释变量与随机变量:什么意思
对于数据而言,要运用回归分析,也是有一定的假设要求的,如下:
(1)随机误差项是一个期望值或平均值为0的随机变量。
(2)对于解释变量的所有观测值,随机误差项有相同的方差。
(3)随机误差项彼此不相关。
(4)解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立。
(5)解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵。
(6)随机误差项服从正态分布。
假设虽多,但最为关键的是两个概念:解释变量和随机误差项。
首先来看解释变量。
对于解释变量,回归分析要求的不多:
如果是确定变量,且有多个解释变量之间彼此不相关,则“回归”能派上用场;否则回归分析并不适用。
比如,想要研究高学历的父母是不是容易生出高学历的孩子。这个问题涉及的因素比较多。我们可以选择孩子的学历作为被解释变量,父母的学历作为解释变量。
其中,父母的学历是既定的,所以它符合第(4)条假定的前半部分,但其实和孩子学历高低有关的变量还有很多,如家庭的经济环境、父母对于教育的重视程度等,而这些也可以作为解释变量纳入研究模型中。
不过有些变量在选择上需要注意,如父母的智商就不太适合纳入,因为智商和学历有比较紧密的关系。
同样,学历高低和收入高低也有一定的关系,当这些变量一同放入回归模型时,就违反了第(5)条假设。
接下来看看随机误差项。
为什么要让随机误差项是零均值同方差呢?
因为只有这样,才能让参数估计是无偏和有效的。抛开参数估计,来说说随机误差项的零均值。
既然有随机误差,那么它就可能有大有小,但最终它的均值需要为0;同样,还需要保证随机误差对变量的影响程度是相等的。
比如,进行一项农业研究,在几块土地上施以不同的肥料浓度来观测施肥浓度对粮食产量的影响,其中随机变量就可能是天气、湿度等因素,但是对于实验土地来说,这些因素的影响是均等的。
而对于随机变量彼此不相关,也就是说不存在序列相关这个假设条件,则可以这样理解:随机变量是不随时间变动而变动的。
仍然研究施肥浓度对粮食产量的影响问题,也许某天刮了一场台风、下了一场瓢泼大雨,当季的粮食产量受到严重影响,这是一个随机影响,但这个影响是一次性的。
这就是随机变量不相关的表现。