实际问题回归模型的建立过程
首先是根据一个具体的经济或社会问题设置相关的指标变量,然后收集相关的数据,根据收集的数据构建理论模型,由已有的数据确定模型的未知参数,再对问题进行合理性检验,运用检验后的模型进行分析、预测和控制等。
1. 指标设置
回归分析主要是揭示事物之间相关变量之间的数量联系。首先需要根据所研究问题的目的设置因变量 y ,也称为被解释变量。其次选取与 y 有统计关系的一些变量 x 1 , x 2 ,..., x n 作为自变量,也称为解释变量。对于一个具体的研究而言,当研究的目的确定后,被解释变量也就随之确定下来。而解释变量的确定并不十分容易,首先是因为我们对研究问题认识的局限性,无法保证选取的变量就是被解释变量的最重要因素;其次是按照模型要求选取的变量应是彼此不相关的。但是在实际问题中很难找到彼此之间完全不相关的变量;最后,对于研究的实际问题,有些重要的数据可能无法获得,只能将该因素分解成几个因素或选取能够近似代表该指标的变量来替代。
选取的指标并不是越多越好。一个模型漏掉重要的指标会影响模型的使用效果,但是选取的指标过多,同样会因为喧宾夺主而冲淡主要影响因素的作用。此外,选取变量过多,难免会出现相关性过高而产生对某一个或某几个因素叠加造成共线性问题;并且变量选取过多必然会造成因为计算量过大导致的精度下降问题。
2. 数据的收集
数据的收集和整理是建立模型进行数学实验的一项重要基础工作。样本数据的质量,直接决定了回归模型的表达程度。
常用的样本数据分时间序列数据和截面数据。时间序列数据就是按照时间顺序排列的统计数据,如新中国成立以来每年的国民生产总值、历年接受高等教育的人数等都是时间序列数据。时间序列数据的使用需要特别注意数据的可比性和数据的统计口径。例如,讨论20世纪60年代人们的消费水平和现在人们的消费水平,就需要对收集到的当年的消费水平数据进行转换,而不能直接进行比较,否则就失去了本来的意义。
截面数据是指同一个时间截面上的数据。例如,2017年我国不同省份城镇居民的收入和消费支出之间的关系数据就是截面数据。使用截面数据进行分析时最容易产生的问题是异方差。
无论是时间序列数据还是截面数据,为了使模型的参数估计更为有效,通常要求样本量的容量 n 大于解释变量的个数 p 。当然对于 n 与 p 的关系到底多少更为合理,没有一个统一的要求。英国统计学家肯德尔(M.Kendall)在《多元统计》一书中认为样本量 n 的个数最好是解释变量 p 个数的10倍以上。
3. 数据的初步处理
在利用给定数据进行回归分析之前,应该先对数据进行初步的分析,处理异常值。在数据量比较大,且异常值较少时,可以通过直接去掉该点的方式,使用新数据进行回归分析,增加回归分析的拟合精度。如果选取样本的数据量本身就较小,或者问题研究中就存在一些特殊情况需要特别关注的话,则应该根据具体问题进行深入细致的分析。