正确地看待统计学数据,有时统计学数据是会说谎的

2020年1月1日12:46:00正确地看待统计学数据,有时统计学数据是会说谎的已关闭评论

数据是统计学的基础,要学习统计学,首先要学会正确地看待数据,有时数据是会说谎的。

有这样一个思想实验。很久很久以前,有一个原始人,住在现在的北京所在的地方。他每天早晨从山洞里跑出来,迎接日出,然后出去捕猎,直到太阳落山后,才跑回山洞里睡觉。一天又一天,太阳升起又落下,每天晚上入睡时,他都十分确信,明天早晨,太阳会照常升起。在另一个地方,一个特别寒冷的地方,也有一个原始人。他的头上一直悬着一个太阳,于是他以为,太阳会永远发光。忽然有一天,太阳消失了,消失得无影无踪,刺骨的寒冷夺去了他的生命。直到死去,他也不明白,太阳究竟去哪儿了。

两个原始人看到了同一个太阳,却对太阳的认识相去甚远。这个简单的思想实验告诉我们,样本的规律未必能代表总体的规律,你以为太阳升起落下是必然规律,是因为你没去过北极。

在统计学中,由片面的样本推理总体的规律往往会以偏概全,这种现象被称为“幸存者偏差”,更通俗的说法是——“死人不会说话”,第二次世界大战时期美国战斗机的故事正说明了这一点。

第二次世界大战时期,美英联军出动大量战斗机,对德国展开大规模空袭,但是德军强大的防空火力让美英联军遭受重创。为了对抗德军的防空火力,美英联军找来了飞机领域的多位专家,要求他们研究战斗机的受损情况,对飞机的设计制造提出改进意见。飞机专家们对执行任务归来的飞机进行了仔细地检查,发现几乎所有的飞机的机腹都伤痕累累,于是专家们建议,加固机腹。可是,美英联军最终没有采纳飞机专家的意见,反而加强了对机翼的防护。这是因为,国防部的一位统计学家认为,能够幸运返航的飞机,机翼大多完好无损,这说明,被击中机翼的飞机都坠落了,而仅被击中机腹的飞机却能够顺利返航,说明机腹不是要害部位,不需要进行加固。因此,他建议美英联军加强对机翼的防护。

在上面的事例中,飞机学家由于缺少统计学知识,错把顺利返航的飞机与被击落的飞机混为一谈。他们把“顺利返航的飞机”作为样本,来推测总体的规律,恰恰掉入了“幸存者偏差”的陷阱中。反观统计学家,从总体出发来寻找规律,虽然他无法观察到被击落的飞机,但他观察顺利返航的飞机之后,推测出了被击落的飞机可能的受损情况,进而提出加固建议,是更合理的解题思路。这个例子除了提醒我们提防“幸存者偏差”之外,还告诉我们,弄清研究对象十分重要,被击落的飞机才是正确的研究对象。

另有一类数据也容易混淆视听,那就是“小概率事件”相关的数据。小概率事件是一些生活中非常稀有但切实发生的事件,最常听到的就是彩票中大奖和被雷劈。小概率事件的发生概率也是通过数据计算出来的,比如,要计算被雷劈中的概率,只需要用被雷劈中的人数除以总人口便可以得到,大约接近百万分之一。然而,小概率事件由于样本十分稀少,往往容易出现大幅波动,引起人们的误解。

马航370事故让空难再次发酵成一个热点话题,在民航领域,衡量民航安全的重要指标是致死事故率,它是指每一百万次航班中的致死事故总数。在20世纪后半叶,由英国和法国联合研制的协和式超音速客机是全世界最安全的客机,在2000年7月的空难发生前,协和式飞机共飞行了约八万次,从未发生过致死事故,因此致死事故率为0,与之同期的波音737飞机,飞行了约一亿五百万次,致死事故率为0.41。然而,2000年7月,协和式飞机不慎发生空难,仅仅这一次空难,使协和式飞机的致死事故率瞬间升至12,一跃成为全球最危险的飞机!

另一个例子是谋杀率。谋杀率是衡量一个国家是否安全的重要指标,在任何一个长期稳定的国家,一年里发生的谋杀案都很少,在13亿人口的中国如此,在不足千人的梵蒂冈也是如此。梵蒂冈是全世界人口最少的独立主权国家,只有不足千人,由瑞士卫队保卫国家安全。多年来,梵蒂冈从未发生过谋杀案件,直到1998年5月4日晚,瑞士卫队队长阿洛伊斯·埃斯特曼和妻子被枪杀。这一晚之后,梵蒂冈的谋杀率瞬间达到五百分之一,领跑全球谋杀率排行榜,成为全世界最不安全的国家。后来,梵蒂冈回归了宁静,谋杀率也重新降回零。

小概率事件总是很少发生,由数据计算出的发生概率是否有意义,值得质疑。很多时候,小概率事件的概率只是新闻媒体的噱头。从概率统计的角度来看,它只能告诉我们,这件事很少发生。

 

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。