不平衡数据分类问题中的数据具有许多传统模式分类方法没有考虑到的特征,从而引发了一系列传统模式分类难以解决的问题。
1 数据稀缺问题
样本分布的不平衡容易导致样本的稀缺。具体地说,稀缺包括绝对稀缺和相对稀缺。绝对稀缺是指稀有类训练样本数量绝对过少,导致该类信息无法通过训练样本充分表示。绝对稀缺类数据的分类错误率要比一般类的数据高出许多。此外,当某类数据过于稀缺时,容易在特征空间中形成小的数据区域,从而引发小区块(Small Disjunct)问题。由于小区块与噪声数据难以区分,因此小区块存在很高的分类错误率。很多分类器为了防止过学习会进行显著性检测。
例如,在决策树中,只有覆盖足够多样本的决策规则和关联规则才能被保留下来,而小区块的数据经常无法顺利通这类显著性检测。另外,如果降低检测的阈值,又无法有效地去除噪声。相对稀缺是指稀有类样本的数量并不少,但相比大类,稀有类样本的占比过小。当总样本数量足够多时,相对稀缺不一定会引起分类器性能下降。绝对稀缺导致的稀有类样本分布不集中且数量过少才容易引起分类器性能下降。所以,相对稀缺能通过增加总样本数量来减少数据不平衡对分类器性能的影响,而绝对稀缺则难以解决。
2 噪声问题
噪声数据不可避免,并会在一定程度上影响分类器性能。但是,对于不平衡分类问题,噪声数据对稀有类的影响更大。稀有类样本的抗噪能力较弱,并且分类器难以区分稀有类样本和噪声数据。但是,由于难以区分噪声数据和稀有类样本,因此很难在保留稀有类的情况下去除噪声。
3 决策面偏移问题
传统的模式分类方法通常建立在训练样本数量均衡的前提下。当用于解决不平衡分类问题时,它们的分类性能往往有不同程度的下降。基于特征空间决策面进行类别划分的分类器,如支持向量机,其目标是寻找一个最优的决策面。为了降低噪声数据的影响和防止过学习,最优决策面必须兼顾训练分类的准确率和决策面的复杂度,即采用结构风险最小化规则。但是,当数据不平衡时,支持向量的个数也不平衡。在结构最小化原则下,支持向量机会忽略稀有类少量支持向量对结构风险的影响而扩大决策边界,最终导致训练的实际超平面与最优超平面不一致。
基于概率估计的分类器(如贝叶斯分类器)的分类准确率依赖于概率分布的准确估计,当稀有类样本过少时,概率估计的准确率将远小于大类,稀有类的识别率也因此下降。对于基于规则的分类器(如决策树和关联规则分类),需要对规则进行筛选。其中,支持度和可信度是规则筛选的重要指标,但是当数据不平衡时,基于上述指标的筛选会变得困难且不合理。在数据不平衡的情况下,传统的分类方法倾向于将稀有类样本划分为大类,通过牺牲稀有类上的准确率来提高总体的准确率,导致决策面的偏移。
4 评价标准问题
分类器评价标准的科学性直接影响分类器的性能,因为分类器训练的目标是达到最高的评价标准。传统模式分类的评价指标一般是准确率,但是以准确率为评价指标的分类器倾向于影响稀有类的分类效果。而且,以准确率为评价指标没有重视稀有类对分类性能评测的影响。