离群值的检测与处理方法
数值型数据的处理方法也是先观察其分布,即检测离群值。离群值的检测有3种方法。
方法一:当离群值为过大或过小的值时,对数据进行排序即可发现。
方法二:平均值法,在平均值±3×标准偏差范围之内的值可视为正常值。
方法三:四分位法,IQR = Q3 – Q1,Q3代表第75%的值,Q1代表第25%的值。正常值的范围为Q1 – 1.5×IQR ~ Q3 + 1.5×IQR。四分位法适用于小数据,故比较常用。
找到离群值后,离群值的处理方法有以下3种。
方法一:将离群值视为空值。
方法二:天花板法/地板法,即如果数据小于正常范围的最小值,则将其改为正常范围的最小值,此方法被称为地板法;如果数据大于正常范围的最大值,则将其改为正常范围的最大值,此方法被称为天花板法。此种方法的优点在于保持最大值和最小值不变。
方法三:函数校正法,即将离群值做log 10 (离群值)处理,即压缩数据。