离群数据与统计学异常值的区别
离群数据(Outlier)就是明显偏离其他数据,不满足数据的一般模式或行为,与存在的其他数据不一致的数据。
离群数据与统计学中的异常值稍有不同:
统计学中的异常值往往指的是一维的数据,而这里要研究的离群数据是多维的。离群数据通常来源于测量错误、计算机录入错误、人为错误等,要对这些数据进行修改、删除,否则可能影响数据分析结果;
另外,它也可能就是数据的真实性质的反映,可能比一般数据所包含的信息更有价值,这部分数据应予以保留。
离群数据的发现,往往可以使人们发现一些真实的,但又出乎意料的知识。