降维是指通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。
降维的结果是图像越来越不清晰,最后只剩下轮廓。
在面对海量数据或大数据进行数据挖掘时,通常会面临“维度灾难”,此时需要进行降维。
为什么要对数据进行降维?
答案: 进行数据降维是基于以下5个原因。
第一,数据本身存在一些问题,比如特征多而样本少、不同的特征具有相关性、噪声或者特征冗余,必须在将这些数据输入模型之前就进行一定的处理。
第二,有些算法不适合高维度的数据,却不得不用它。
第三,特征太多或者太复杂会使得模型过拟合。
第四,减少数据量,从而减小计算量。
第五,将数据维度降到二维或者三维后,可以进行可视化,便于观察和挖掘信息。
数据降维一般针对高维数据进行操作,但不是所有的高维数据都需要进行数据降维。因为绝大部分降维都会带来数据信息的损失,如果维度不高,在输出结果后需要分析原始维度对模型的影响,或者模型对精度要求很高,那么就要谨慎降维。反之,如果维度数据实在太大,明显影响计算效率,降维后对模型精度影响也不太大,那么就可以进行降维了。
有哪些数据降维方法?
答案:数据降维的方法有两类,一类是基于特征选择的降维,一类是基于维度转换的降维。
特征选择根据一定的规则和经验,直接在原有的维度中挑选一部分参与到计算和建模过程,用选择的特征代替所有特征,不改变原有特征,也不产生新的特征值。简而言之就是留下重要的,去掉不重要的。关键点在于区分变量的重要性。
一个变量是否可以被去掉,通常要看该变量是否含有足够的有用信息,如果缺失值比较多,剩余的有用信息特别少,或者变量的方差趋近于0,那么就可以去掉。还可以计算变量之间的相关性,相关性特别高的变量保留其中一个即可。或者通过一些算法来计算变量的重要性,比如随机森林等。还可以通过观察去掉变量前后训练效果的变化来确定是否舍弃一个变量。
基于维度转换的降维方法本质是一种映射,即按照一定的数学变换方法,把给定的一组相关变量通过数学模型将高维空间的数据点映射到低维空间中,然后利用映射后变量的特征来表示原有变量的总体特征。这种方式是一种产生新维度的过程,转换后的维度并非原有维度的本体,而是其综合多个维度转换或映射后的表达式,而且新的特征丢失了原有数据的业务含义,很多时候我们有可能不能将这些特征和业务对应起来。
通过数据维度变换进行降维是非常重要的降维方法,这种降维方法分为线性降维和非线性降维两种。其中线性降维的代表算法包括独立成分分析(ICA)、主成分分析(PCA),因子分析(FA)和线性判别分析(LDA)。非线性降维的代表方法有核方法、二维化和张量化以及流形学习等。