多项式回归模型在有关成本和生产函数的计量经济研究中有广泛的用途。而且在介绍这些模型的同时,我们进一步扩大了经典线性回归模型的适用范围。
现在有一组如图7-3所示的数据,图中的虚线是采用普通一元线性回归的方法进行估计的结果,不难发现,尽管这种方法也能够给出数据分布上的一种趋势,但是由此得到的模型其实拟合度并不高,从图中可以非常直观地看出估计值与观察值间的误差平方和是比较大的。为了提高拟合效果,我们很自然地想到使用多项式来建模,图中所示的实线就是采用三次多项式进行拟合后的结果,它显然有效地降低了误差平方和。
图7-3 多项式回归拟合曲线
事实上,采用多项式建模的确会较为明显地提高拟合优度。如果要解释这其中的原理,我们可以从微积分中的泰勒公式中找到理论依据。泰勒公式告诉我们如果一个函数足够光滑,那么就可以在函数上某点的一个邻域内用一个多项式来对函数进行逼近,而且随着多项式阶数的提高,这种逼近的效果也会越来越好。同理,如果确实有一条光滑的曲线可以对所有数据点都进行毫无偏差的拟合,理论上就可以找到一个多项式对这条曲线进行较为精确的拟合。
多项式回归通常可以写成下面这种形式
在这类多项式回归中,方程右边只有一个解释变量,但以不同乘方出现,从而使方程成为多元回归模型。而且如果 x 被假定为固定的或非随机的,那么带有乘方的各 x i 项也将是固定的或非随机的。
各阶多项式对参数 β 而言都是线性的,故可用普通最小二乘法来估计。但这种模型会带来什么特殊的估计问题吗?既然各个 x 项都是 x 的幂函数,它们会不会高度相关呢?这种情况的确存在。但是 x 的各阶乘方项都是 x 的非线性函数,所以严格地说,这并不违反无多重共线性的假定。