什么是数据异常值:异常值的判断标准
什么是业务中的异常值?这在实际工作中其实还没有定论,一个大致的判断标准是“偏离了原来数据的变化轨迹,就可以视为异常值”,例如原先一直上升的数据,现在突然下降了,或者说上升的速度下降了,都可以视为异常值。
下面比较系统地看一下常见的异常值的判断标准。
判断业务异常值的标准大致有以下几个。
(1)特别大(小)
如果在业务值中出现了特别大或特别小的值,那么就可以认为是异常值。什么叫特别大或者特别小呢?一般以数据的平均值作为比较的标准,如果超出平均值的50%以上或者小于平均值50%以上,就可以视为平均值了。
(2)脱离箱体
“箱体”本来是一个金融术语,特指股票价格在一个近似矩形的范围内波动,股价运行到箱体的上沿,基本上就会下跌,股票运行到箱体的下沿,基本上就会反弹上涨。
在金融市场中,箱体的形成有其一定的道理。例如对一个股票,大家对其的价值判断是在9~12元之间,那么当股价上升接近到12元左右时,大家认为股价很难突破12元,于是纷纷抛出股票,股价随之下跌;反之亦然,当股价下跌至9元附近时,大家认为股价很难真正跌破9元,股价已经很低,具有投资价值,于是纷纷买入股票,股价随之上扬。
除了金融市场之外,一般的业务数据也存在箱体变动的规律。例如一般估计某地分公司的销售收入在10~30万之间,淡季的销售收入在10万左右,旺季的销售收入在30万左右,如果销售收入跌破了10万或者超过了30万,则表明销售收入确实突破了箱体,值得关注。
(3)趋势改变
如果本来一个值是上升的,现在下降了,或者反过来,本来是下降的,现在不降反升了,那么这就代表趋势发生了改变。
“趋势”这两个字在业务分析和数据分析领域是一个非常常见的词汇,我们经常说“中国的房地产经过了十多年的上涨,趋势已经形成,什么时候趋势发生转变,我们都不知道”。再深入一步,如果数据一直在增长,现在突然不增长了或者下降了,是不是意味着趋势发生变化了呢?或者说反方向变动多少,才能够理解为趋势的反转呢?例如一个数据上涨到峰值1000,然后下跌到980,是不是意味着趋势发生了变动呢?
关于这个问题,其实挺复杂的,金融行业或许有很好的答案,一般意义上,大家比较认可的一个说法是:如果股指从最高点下跌超过20%,就认为趋势发生了反转,反之亦然。例如股指最高是5000点,如果下跌超过1000点,跌到4000点以下,我们就认为趋势反转进入了熊市;反之,如果股指最低是2000点,如果上涨了400点达到2400点,再加上成交量的配合,我们就认为股指反转进行了牛市。
其他行业的规律不一而足,需要结合行业的具体情况加以研判。
(4)变化率的变化
从严格意义上讲,变化率的变化也属于趋势变化的范畴,也就是说原来增长得很快,现在增长率下降了,这就属于变化率的变化,实际上也算是趋势变化的一个变种吧。
之所以把“变化率的变化”单独作为异常值判断的标准,是因为笔者在跟企业接触的过程中,发现有一些企业非常关注数据变化率的变化,因此特地将变化率的变化列为异常值判断的标准之一。