线性回归建模速度快,不需要很复杂的计算,在数据量大的情况下依然能够快速运行,可以根据系数给出每个变量的解释,但不能很好地拟合非线性数据,所以在构建回归模型时需要先判断自变量的类型。
分类变量(也称为因子变量或定性变量)是将观察指标分类的变量。它们具有数量有限的不同值,称为水平。例如,性别是可以分为两个水平(男性和女性)的分类变量。回归分析中需要用数值变量,因此需要对回归模型中的分类变量进行相应的处理,以使结果可解释。通常需要将分类变量进行重新编码,使其成为一系列二进制的变量,这个新的编码被称为“哑变量”。
R语言在进行回归分析时会自动创建哑变量,也可手动将分类变量重新编码,当分类变量具有大量水平时,将某些水平组合在一起可以减少哑变量数;某些分类变量的水平是有序的,它们可以被转换为数值(0,1,2,3…)并按连续性变量处理。例如,如果教授等级(“AsstProf”(助理教授)、“AssocProf”(副教授)和“Prof”(教授))具有特殊含义,则可以将它们转换为数值,从低到高排序(AsstProf = 0,AssocProf = 1,Prof = 2),以对应不同等级的教授。