相关系数可以用来说明在直线相关条件下,两个现象相关关系的方向和程度,但不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。而研究变量之间的一般数量关系十分必要,因为它是进行各种推算和预测的根据。
研究现象之间数量变化的一般关系所使用的数学方法,称为回归分析。确切地说:回归分析就是对具有相关关系的两个变量之间数量变化的一般关系进行测定,确立一个相关的数学表达方式,以便于进行估计或预测的统计方法,即回归分析是通过一个变量或一些变量来解释另一个变量的变化。
回归这个概念是英国生物学家高尔顿提出的。高尔顿在研究父母的身高和子女身高的关系时,发现了一个有趣的现象。身材特别高的父母所生的孩子一般地讲也要高一些,但并不是特别高;而身材特别高的孩子,其父母常常是中等偏高的身材。同时,身材矮的父母所生的孩子一般也矮一些,但并不是特别矮;身材特别矮的孩子,其父母身高常常是中等偏矮的。高尔顿把这种现象叫作“身高数值从一极端至另一极端的回归”。回归这个概念就是从这里开始的。高尔顿的学生皮尔逊进一步提出,后代身高回归到其祖先的平均身高上去(而不仅仅是双亲遗传的影响,体现了遗传和变异的统一)。把回归的概念和数学方法联系起来,把代表现象之间一般数量关系的直线或曲线叫作“回归直线”或“回归曲线”。后来,回归这个名词就被用来泛指变量之间的一般数量关系。
根据回归分析方法得出的数学表达式称为回归方程,它可能是直线方程,也可能是曲线方程,视具体资料的性质而定。用一条回归直线来表明两个相关变量之间一般数量关系的方程式称为“简单直线回归分析”。
简单直线回归分析具有如下特点:
(1)在两个变量之间,必须根据研究目的具体确定哪个是自变量,哪个是因变量。
(2)回归方程的主要作用在于给出自变量的数值来估计因变量的可能值。一个回归方程只能做一种推算,不能进行倒推。推算的结果表明变量之间的具体变动关系。
(3)在没有明显的因果关系的两个变量X和Y之间,可以求得两个回归方程:一个是以X为自变量,Y为因变量,求出的回归方程称“Y依X回归方程”;另一个是以Y为自变量,X为因变量,求出的回归方程称“X依Y回归方程”。例如,生产量和销售量两个变量,可以互为自变量,据以推算另一个因变量。这和用以说明两个变量之间关系密切程度的相关系数是不相同的,相关系数只能有一个。
(4)直线回归方程中,自变量的系数称为回归系数。回归系数的符号有正有负,为正时,表示正相关;为负时,表示负相关。
(5)计算回归方程对资料的要求也不同于相关分析,这里要求因变量是随机的,而自变量不是随机的,是给定的数值。求出回归方程后,也是将给定的自变量值代入方程中,求出因变量的估计值,这个估计值不只是一个确定的数值,而是许多可能数值的平均数。因此,可以计算估计的标准误差。