数据形态的转换:连续性指派
某些算法并不适用类别型变量建模,比如线性回归、Logistic回归等。
这时需要把类别型变量转换成数值型变量,可以使用连续性指派(Continuousness Arbitrary)。其方法就是指找出和类别型变量有关的属性,而这个属性是具有连续性的数值型变量。
以学历为例,这个属性包含5种类别,分别是小学、初中、高中、大学、研究生。可以用入学年龄来表示,变换完以后,数据变为小学(6),初中(12),高中(15),大学(18),研究生(22)。这样就完成了连续性指派的数据转换。
