通过适当的变量替换把非线性关系转换为线性是一种非常有用的技术。在很多时候,借由这种变换,我们可以在线性回归的模型框架里来考虑许多看似形式复杂的经典模型。
作为对数-对数模型(或称为双对数模型)的一个典型例子,下面就让我们共同来研究生产理论中著名的柯布-道格拉斯生产函数(Cobb-Douglas Production Function)。
生产函数是指在一定时期内,在技术水平不变的情况下,生产中所使用的各种生产要素的数量与所能生产的最大产量之间的关系。换句话说,生产函数反映了一定技术条件下投入与产出之间的关系。柯布-道格拉斯生产函数最初是美国数学家查尔斯·柯布(Charles Wiggins Cobb)和经济学家保罗·道格拉斯(Paul Howard Douglas)在探讨投入和产出的关系时共同创造的。它的随机形式可以表达为
其中, y 是工业总产值, x 2 是投入的劳动力数(单位是万人或人), x 3 是投入的资本,一般指固定资产净值(单位是亿元或万元)。 β 1 是综合技术水平, β 2 是劳动力产出的弹性系数, β 3是资本产出的弹性系数, u 表示随机干扰项。
在柯布与道格拉斯二人于1928年发表的著作中,他们详细地研究了1899年至1922年美国制造业的生产函数。他们指出,制造业的投资分为,以机器和建筑物为主要形式的固定资本投资和以原料、半成品和仓库里的成品为主要形式的流动资本投资,同时还包括对土地的投资。在他们看来,在商品生产中起作用的资本,是不包括流动资本的。这是因为,流动资本属于制造过程的结果,而非原因。同时,他们还排除了对土地的投资。这是因为,这部分投资受土地价值的异常增值的影响较大。因此,生产函数中,资本这一要素只包括对机器、工具、设备和工厂建筑的投资。而对劳动这一要素的度量,他们选用的是制造业的雇用工人数。
但不幸的是,由于当时对这些生产要素的统计工作既不是每年连续的,也不是恰好按他们的分析需要来分类统计的。所以他们不得不尽可能地利用可以获得的一些其他数据,来估计出他们打算使用的数据的数值。比如,用生铁、钢、钢材、木材、焦炭、水泥、砖和铜等用于生产机器和建筑物的原料的数量变化来估计机器和建筑物的数量的变化;用美国一两个州的雇用工人数的变化来代表整个美国的雇用工人数的变化等等。
经过一番处理,基于1899—1922年的数据,柯布与道格拉斯得到了前面所示之形式的生成函数。这一成果对后来的经济研究产生了十分重要的影响,而更令人敬佩的是,所有这些工作都是在没有计算机的年代里完成的。从二人所给出的模型中可以看出,决定工业系统发展水平的主要因素是投入的劳动力数、固定资产和综合技术水平(包括经营管理水平、劳动力素质和引进先进技术等)。
尽管柯布-道格拉斯生产函数给出的产出与两种投入之间的关系并不是线性的。但通过简单的对数变换即可以得到
其中 β 0 =ln β 1 。此时模型对参数 β 0 、 β 2 和 β 3 是线性的,所以模型也就是一个线性回归模型,而且是一个对数-对数线性模型。
有资料给出了2005年美国50个州和哥伦比亚特区的制造业部门数据,包括制造业部门的价值加成(即总产出,单位:千美元)、劳动投入(单位:千小时)和资本投入(单位:千美元)。限于篇幅,此处我们不详细列出具体数据,有需要的读者可以从本书的在线支持网站上下载得到完整数据。假定上面给出的模型满足经典线性回归模型的假定。在 R 中使用最小二乘法对参数进行估计,最终可以得到如下所示的回归方程
从上述回归方程中可以看出2005年美国制造业产出的劳动和资本弹性分别是0.4683和0.5213。换言之,在研究时期,保持资本投入不变,劳动投入增加1%,平均导致产出增加约0.47%,类似地,保持劳动投入不变,资本投入增加1%平均导致产出增加约0.52%。把两个产出弹性相加得到0.99,即为规模报酬参数的取值。不难发现,在此研究期间,美国50个州和哥伦比亚特区的制造业具有规模报酬不变的特征。而从纯粹的统计观点来看,所估计的回归线对数据的拟合相当良好。 R 2 取值为0.9642,表示96%的产出(的对数)都可以由劳动和资本(的对数)来解释。当然,要进一步阐明该模型的有效性,还应该借助前面介绍的方法对模型及其中参数的显著性进行检验。
表7-1给出了一些常用的不同函数形式的模型。这些模型的参数之间都是线性的,但(除普通线性模型以外)变量之间却不一定是线性的。表中的∗表示弹性系数是一个变量,其值依赖于 x 或 y 或 x 与 y 。不难发现,在普通线性模型中,其斜率是一个常数,而弹性系数是一个变量。在双对数模型中,其弹性系数是一个常量,而斜率是一个变量。对表中的其他模型而言,斜率和弹性系数都是变量。