特征选择不仅可以减少特征数量、降维,使模型泛化能力更强,减少过拟合,还可以增强对特征和特征值之间的理解。
我们需要区别两个概念,一个是特征选择(feature selection),是指从 n 维空间中,选择提供信息最多的 k 个维,这个 k 维空间是原 n 维空间的子集。另外一个是特征提取(feature extraction),是将 n 维空间映射到 k 维空间中,这个 k 维空间不是原 n 维空间的子集。
特征选择的降维方式好处是可以保留原有维度特征的基础上进行降维,既能满足后续数据处理和建模需求,又能保留维度原本的业务含义,以便于业务理解和应用。对于业务分析性的应用而言,模型的可理解性和可用性很多时候要有限于模型本身的准确率、效率等技术指标。例如,决策树得到的特征规则,可以作为选择用户样本的基础条件,而这些特征规则便是基于输入的维度产生。
基于特征选择的降维方法
如何进行特征选择降维?
答案:
总结起来基于特征选择降维的方法主要有以下4种。
1)经验法:通过操作者的以往经验、实际数据情况、业务理解程度等综合考虑选择。
2)测算法:通过不断测试多种维度选择参与计算,通过结果来反复验证和调整并最终找到最佳特征方案。
3)基于统计分析的方法:通过相关性分析不同维度间的线性相关性,从相关性高的维度中人工去除或筛选;或者通过计算不同维度间的互信息量,找到具有较高信息量的特征集,然后把其中的一个特征去除或留下。
4)机器学习算法:通过机器学习算法得到不同特征的特征值或权重,然后再根据权重来选择较大的特征。例如,通过CART决策树模型得到不同变量的重要程度,然后可以根据实际权重值进行选择。