什么是过采样小样本?什么是欠采样大样本?

2023年3月16日12:39:12什么是过采样小样本?什么是欠采样大样本?已关闭评论

1)过采样小样本(SMOTE)

即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。优点是相当于合理地对小样本的分类平面进行一定程度的外扩,也相当于对小类错分进行加权惩罚。

当数据量不足时就应该使用过采样,它尝试通过增加稀有样本的数量来平衡数据集,而不是去除丰富类别的样本数量。

2)欠采样大样本

设小类中有 个样本。将大类聚类成 个簇,然后使用每个簇的中心组成大类中的 个样本,加上小类中所有的样本进行训练。优点是保留了大类在特征空间的分布特性,又降低了大类数据的数目。

欠采样是通过减少丰富类的大小来平衡数据集,当数据量足够时就该使用此方法。通过保存所有稀有类样本,并在丰富类别中随机选择与稀有类别样本相等数量的样本,可以检索平衡的新数据集以进一步建模。

注意,欠采样和过采样这两种方法相比而言,都没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。另外,将过采样和欠采样结合起来使用也是成功的。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。