什么是异常分析:异常分析的方法与例子
在海量数据中,有少量数据与通常数据的行为特征不一样,在数据的某些属性方面有很大的差异。它们是数据集中的异常子集,或称为离群点。通常,它们被认为是噪声,常规的数据处理试图将它们的影响最小化,或者删除这些数据。然而,这些异常数据可能是重要信息,包含潜在的知识。例如,信用卡欺诈探测中发现的异常数据可能隐藏着欺诈行为;临床上异常的病理反应可能是重大的医学发现。
异常分析的基本方法是寻找观测结果与参照值之间有意义的差别。
常见的方法有以下几种。
1)请领域专家标记部分正常数据对象和离群点对象,利用这些对象建立离群点监测模型,所使用的方法又可分为监督方法、半监督方法和无监督方法。
2)统计学方法:对数据的表现做出一个统计模型假定,符合该模型的被认为是正常数据,而不符合该模型的数据就是离群点。
3)基于临近性的方法:在特征空间中,如果数据远离它最邻近的数据,则认为它是离群点。
4)聚类方法:对数据聚类后,小的或者稀疏的簇中的数据可判定为离群点。
