数据并不总是有价值的,在数据分析中需要牢记数据有时会对我们有用!下面将讨论一些常见的数据谬论,以帮助大家在数据分析过程中避免它们的发生。最常见的谬论是假设数据集是值得信赖的,直到后来的分析才发现它不是。在数据收集中经常会遇到如下陷阱。
1. 单方论证
诺贝尔经济学奖获得者罗纳德·科斯说:“如果你对数据进行足够长时间的折磨,它就会承认任何事情。”数据分析中,我们有时会陷入单方论证的陷阱(即Cherry Picking ),仅选择支持自己观点的数据,同时丢弃不支持自己观点的部分。例如,我们可能会注意到产品某个新功能相关的支持问题响应时间增加了。如果只是着眼于此,可能会得出结论,响应时间增加是新产品功能导致。但如果查看过去两个月的所有客户支持问题,可能会看到整体响应时间增加,是因为问题数量增加了。我们需要保持中立,并且不要爱上某个假设!
2. 错误因果关系
我们经常会因为两个事件同时发生,就认为二者相关,这可能会导致错误因果关系(False Causality)。有时似乎相关的模式可能与第三个独立因子相关,而不是彼此相关。然而更好的方法是,收集更多数据并查看可能的第三方原因。例如,我们发现放弃在线购物车的潜在客户往往具有较低的总购物价值。然而当我们深入挖掘时,可能会发现实际是由于运费的原因导致购物车弃购率上升,因为免费送货仅适用于超过特定金额的订单。
3. 幸存者偏差
幸存者偏差(Survivorship Bias)是一种常见的逻辑谬误(而不是“偏差”),指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。即从不完整的数据集中得出结论,因为这些数据也仅仅是碰巧符合了一些选择标准。分析数据时,一个很重要的步骤是问一下自己有什么缺失的数据。有时可能没办法掌握数据的整体情况就是因为它们只反映了一部分。例如,在第二次世界大战中,英美空军为了加强战斗机的保护措施,对参战飞机中弹区域进行了详细统计,结果显示机翼部位中弹最密集,而机舱部位中弹最少。于是军方决定对飞机机翼进行加固,但一名统计学家站出来反对。他表示真正需要加固的是机舱,因为机舱中弹的飞机大概率无法返航,才导致了这样的统计结果。最终军方采纳了他的建议,战斗机坠毁率果然降低。这就是所谓的幸存者偏差,也称为“死人不会说话”效应,幸存者的经验往往误导了我们的判断。
4. 采样偏差
由于我们并不总是能获得全部数据,那么数据能代表总体样本就变得至关重要。我们经常会发现在进行A/B测试时,某种产品改进确实提高了转化率,但是当产品上线后转化率反而下降了。通常这种问题的发生都与试验设计时样本的采样偏差(Sampling Bias)有关。