关注数据代表性:二战期间统计学家改良轰炸机

2024年12月18日20:16:33关注数据代表性:二战期间统计学家改良轰炸机已关闭评论

1“二战”盟国轰炸德国损伤惨重

这个故事发生在“二战”期间。1943年,美国和英国联手对德国本土的主要工业城市进行轰炸,双方约定,美国负责在白天攻击德国,英国则负责在晚上偷袭德国。英美盟军本来是一支实力强横的军队,但由于德国轰炸机的顽强抵抗,这一轰炸任务带来了极高的人员伤亡率与轰炸机损失率。

1943年年底,损失率便达到英美盟国不能承受的高度。为了提高轰炸机的返航率,轰炸司令部请来了一位统计学家。他们希望这位统计学家可以帮助轰炸机制造商改良轰炸机的结构,以达到提高士兵生还率,降低轰炸机损失率的目的。

这位统计学家做的事情很简单。他先在各个部队转了一圈,听取了一些飞行员的建议,然后要来了一些大尺寸的飞机模型,每当轰炸机返回基地后,他便详细记录下这些轰炸机的损伤情况。统计学家在飞机模型上把轰炸机受击的部位用黑笔标注出来。两个月后,这些飞机模型上已经有了许多标注。这些标注把飞机模型几乎淹没了,有些地方的标注明显多于其他地方,如侧翼、机身。但也有些地方的标注则明显少于其他地方,甚至几乎没有,如驾驶室、发动机所在的位置。

统计学家把这些模型拿给司令部长官和军火商看,自信满满地指出那些标注较少的地方就是急需加强防卫的地方。军火商疑惑地说:“可是这些位置都没有被标记,它们看上去好像不太容易被击中。我们不是应该加强那些被击中次数比较多,比较容易受到攻击的位置吗?”

统计学家回答说:“这不是因为飞机的这些位置不容易被击中,而是因为所有这些位置被击中的飞机都没能回来。”聪明的统计学家解释后,他提出的建议立刻获得了所有人的认可,军火商按照统计学家的建议改良了飞机,轰炸机的返航率果然大幅提高了。

2 轰炸机的返航率得到提高

统计学家的建议听上去固然很明智,但是身为数据分析师,还是要用数据说话,从数据中看一看统计学家的建议到底起到了多大的作用。下面以“二战”时最著名的B-17轰炸机为例,研究一下它的损失率。

表4.2给出了英美盟军对德国本土轰炸任务的一些记录。

在1944年年初,德军战斗机力量得到极大增长,同时,英美盟军也派出了几百架可以全程护航的战斗机保护轰炸机群,这使得1944年2月20日开始的“不间断轰炸周”中轰炸机的整体损失率仅有7%。

提示

在“二战”后期,战斗机的续航能力不断提高,英美盟军执行轰炸任务时总是派出战斗机为轰炸机护航,这极大影响了轰炸机的损失率。表4.2中末两条记录截取自“不间断轰炸周”,为了排除战斗机护航因素对损失率的影响,这两条记录中的轰炸机群没有或仅有很少战斗机护航。

在表4.2中给出的5条记录仅是全部轰炸任务记录中的冰山一角,但不难看出,损失轰炸机数目是逐步下降的。这和英美盟军在“二战”中取得最终胜利的轨迹也基本吻合。除这些记录外,《B-17飞行堡垒》一书中也给出了许多关于B-17坚固程度的惊人例子。

一架名为“麻袋”的B-17轰炸机被炸开一个大洞,仍然安全返航。一架编号124406的飞机被击中尾翼,其电源线破碎,尾翼与发动机也歪了,但飞机还是成功返航。如图4.2所示。

更惊人的是“全美国人”号轰炸机,该飞机被德军战斗机机翼切中,机身被割下一大块来,飞机尾部挂在飞机上摇摇欲坠,驾驶员不得不扔掉所有炸弹,以70英里的巨大半径画圆掉头,以免飞机尾部受过多的力,使困在尾部的机枪手掉下去。飞机飞回基地降落以后,机尾马上就断掉了,那个既不幸又幸运的机枪手也捡回了一条命。

维修师注意到,“全美国人”号能够坚持返回基地,除飞行员确实十分优秀外,还应当归功于飞机设计师在设计飞机时留下的冗余设计。B-17确实加强了它的发动机部分,“全美国人”号借此挽救了机枪手,美国也节省了几亿美元,而这一切的开端,正是统计学家通过那个简陋的飞机模型所给出的建议。

提示

和轰炸机损失率相关的因素数不胜数,除前文提到的战斗机护航因素外,德国军队的强弱、天气因素和其他战场的战况等也在影响轰炸机损失率。在这个真实的故事中很难量化评价统计学专家的作用,但统计学家解决问题的思路是独树一帜的。

 3 对轰炸机改进过程的分析

这位统计学家采用了比“霍乱地图”更为直观的表达方式,但他最聪明的一点在于他没有像军火商那样被数据表象所迷惑,而是看透了战机损伤数据所反映的真实问题。在收集数据时,统计学家收集了轰炸机的每个位置的损伤记录,并且用描述性的手段简单罗列了下来。统计学家发现,机身、机翼损伤情况较多,驾驶室、发动机所在的位置损伤情况则较少。这一点和常识是明显相悖的,同样的一颗子弹,打到发动机给飞机带来的伤害绝对要比打到机身带来的伤害大。

是数据出错了吗?还是常识是错的?聪明的统计学家意识到造成这一结果的原因在于,收集数据的样本是片面的。因为只收集了成功返航的轰炸机的损伤记录,因此数据结构会有明显的倾向。深入思考一下,未返航的轰炸机的数据记录应当和收集到的数据记录正好相反。驾驶室和发动机所在的位置正是应当加强的部分。

统计学家所做的事情并不复杂,我们在实际工作中也会做一些类似的描述性统计分析,即将数据简单汇总,观察其最大值、最小值、均值和分布倾向,从中得到结果。这项工作看似很简单,但是如果相关背景掌握得不好,很容易犯想当然的错误。军火商如果没有统计学家的指导,就算面对着模型,也会做出大错特错的结论。

数据分析师在实际工作中,一定要仔细想一想所分析的数据的来源是片面的,还是全面的?能代表全体样本,还是仅能代表某个特定层级?当数据表现的特征和所期望的有出入时,一定要想一下是还有什么因素被忽略了吗?在这个故事中,统计学家正确地考虑到了数据的代表性问题,因此得到了好的结论。

提示

在分析问题时,不但要考虑数据的代表性问题,还要考虑诸如数据的真实性和时效性等各个方面,将问题与实际情况更紧密地结合起来,才能得到正确的统计分析结果。

4 数据代表性小结

对数据代表性的要求可以进一步阐述为对数据客观性的要求,在收集数据时应当努力保证数据样本是真实客观的,即总体的各个层级都能均匀地取到样本。这好比取水样,不但要在大江大河中取水,小溪小流中的水也需要取一些,这样取来的水样才能兼顾到各个层面。

有时没办法做到这一点,例如,统计学家就不可能顶着枪林弹雨跑到德国去实地查看那些损失的轰炸机的损伤情况,也不可能委托其他士兵一边执行轰炸任务一边收集这些记录。不过数据是死的,人的智慧是活的,统计学家通过未损失战机的情况推断出损失战机的情况。同样地,分析数据时也可以通过一些样本数据的情况推断出另一些样本数据的情况。

但智者千虑,必有一失,即便在收集数据时已经尽可能地搜集了客观的数据。但在分析数据时往往会遇到一些看似违反常理的情况,轻信这些异常的结果很可能会酿成大错,武断地推翻全部结论也是不理智的行为,最好的办法是仔细地考虑每一个步骤,更充分地把数据结论和数据来源联系起来;想一想为什么会有这样异常的结果,只有经过缜密地判断,才能为不合常理的结论找到合理的解释,从而提供有价值的建议。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。