对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为
在上式中,因变量y的值由两部分构成。
(1) x的线性部分,其反映了由于x的变化而引起的y的变化。
(2)误差项ε,其反映了除x之外的随机因素对y的影响,其是随机变量,是不能由x和y间的线性关系所解释的波动。
以消费支出函数y=α+βx+ε为例,其中,y指消费支出,x指收入,ε指除收入外的影响支出的其他若干随机因素,如家庭财富、消费理念、生活习惯、居住区域等,这些因素均对一个人的支出产生或多或少的影响,只是无法具体体现在回归模型中,因为一元回归模型只能包含一个自变量。
正是由于ε的随机波动性,才使得每一个人的消费支出均不相同,此时y表现为具体的样本点,这些样本点的排列并没有严格的规律性。
如以三名毕业生月收入和月支出的数据为例(见表6.5和图6.9)。
表6.5 毕业生收入与支出情况
图6.9 收入与支出相关关系图
如何才能使散点图中的样本点呈现出严格的规律性呢,对于这一问题,可以通过对消费支出函数y=α+βx+ε的等式两端分别求期望值,也即
如以三名毕业生月收入和月支出均值的数据为例(见表6.6和图6.10)
表6.6 月支出回归数值
图6.10 收入与支出回归关系图
在统计学中,一般假设E(ε)为 0,原因在于不同个体的随机误差项ε有高有低,难以具体测定,但若将所有个体的ε综合在一起,则可视作相互抵消的关系。
因此,散点图中的样本点所呈现出严格的规律性便是E( y)=a+bx ,为表示方便,一般将E(y)写成yc,故可将上述方程表示为yc=a+bx,其中yc便是在每一自变量x下的因变量y的期望值(均值)。