在统计分析中,变量之间的相关关系可以用相关系数进行反映,但在相关系数分析中,变量之间的关系仅能体现为相关的方向和程度,如是正相关还是反相关,是高度相关还是弱相关,尽管这已经能够简单描述出变量之间的关系,但对于深层次挖掘变量之间的关系而言,还是不够的。
我们在相关分析中,常不去区分变量之间的因果属性,仅仅是将两个变量看作是对等的,而在实际工作中,常需要反映出现象之间的联系机制,也即当给出某一影响变量的数值时,另一受到影响的变量将会发生怎样的变化,本质而言也即现象之间的因果关系,或是影响与被影响关系,这对于很多经济管理问题的解决具有重要意义。
如在宏观经济管理中,欲刺激未来若干年的经济发展,常采用一些积极性的财政政策或货币政策,若将经济发展用 GDP 增长率变量予以表征,而将影响这一变量的若干因素表征为利率、货币供应量、税率等变量,那么这些变量是怎样影响 GDP 增长率这一变量的,其弹性系数有多大等,均需要通过确定一个相关的数学表达式予以反映,以便于进行估计或预测。
由以上分析可知,相关关系并不能反映出变量之间的因果联系机制,也即当一个变量发生变化时,另一变量将变动多大的程度,这一变动程度可以称为边际效应或弹性效应,这在微观经济学中已经学习过。线性回归分析的目的便是在相关分析的基础上,在线性相关程度较强的变量所形成的散点图中拟合一条直线,该直线可以反映出所有坐标点的总体走势。
例如,有一组学生的身高 x (cm)与体重 y (kg)的散点图,如图 6.7 所示,可用一条直线拟合各散点的总体走势,也即向右上方倾斜。
图6.7 身高与体重散点图
有一组公司的成本x (万元)和利润y (万元)的散点图,如图 6.8 所示,可用一条直线拟合各散点的总体走势,也即向右下方倾斜。
图6.8 成本与利润散点图
散点图中的直线在统计学中叫作回归直线,其在坐标图中兼具斜率和截距,因此,表现这条直线的数学公式在统计学中叫作直线回归方程。
回归这一统计术语,其源于英国遗传学家高尔登(Galton)所做的豌豆试验。高尔登被誉为现代回归和相关技术的创始人。
1875 年,他利用豌豆实验来确定尺寸的遗传规律。他选了7 组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植 10 粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较。
当结果被绘制出来后,他发现并非每一代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。
高尔登把这一现象叫作“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。人们发现它的应用很广,而不仅限于从一代到下一代豌豆大小问题。