统计学中的p值误用(p值操纵)是什么意思?

2023年2月19日16:02:28统计学中的p值误用(p值操纵)是什么意思?已关闭评论

p值的历史和思想

p值的祖师爷可不是Fisher,而是数学家拉普拉斯。1770年,他在一项关于生育率的研究中,发现生男孩的比率超过女孩。他很难从生物学的角度去解释,于是发明了一个名为p值的指标,来解释这个现象是否合理。

又过了若干年,p值以一种正式的形式被一个统计学家公之于世。他就是Karl Pearson。他的名字或许还不如他的卡方检验那样声名显赫。这个p值的计算公式就是和卡方检验一起发表在当年的《哲学杂志》上而名垂青史的。

如果那个年代也是互联网时代,Fisher一定是p值的“首席运营官”。后来,p值能在“江湖”上盛行那么多年至今仍然生生不息,Fisher可谓是“第一推手”。他是这样阐释p值的思想的(他当年主要想检验的是一个样本是否来自一个已知分布的总体)。

在一个均值为μ 正态分布的总体中抽样,得到这个均值的样本的概率多大?如果这个概率是可以算出来的,那么就能知道“样本来自这个总体”这件事是不是靠谱。如果概率太小,就被认为是不靠谱事件,反过来推理出这个假设是不靠谱的。

这里利用的是“小概率事件原理”,这个概率就是多年后称霸统计江湖的“p值”。

细心的朋友会发现,Fisher自始至终没有提到过“备择假设”。显著性的检验是基于零假设得到的概率,但是只能用来否定“零假设是靠谱的”这件事,并不能推导出任何关于“零假设发生的概率是多少”的结论。

后来盛行的“备择假设”其实并非出自Fisher,而是出自另外一个统计学家Neyman-Pearson。他的关于假设检验的思想源于Fisher但不等同于Fisher。他和Fisher关于假设检验的观点主要有如下不同:

(1)Fisher的p值检验思想,没有引入备择假设,也从来不能用p值来证明某个假设是正确的。值得注意的是,p值依赖于样本。当抽取不同的样本时,得到的p值也会变化,结论也会随之变化。

(2)Neyman引入备择假设,判断是否拒绝零假设的同时,辅助性地给出两类错误及power作为参考信息。可是Neyman至死都不承认“p值”的存在。

p值误用

或许得益于Fisher所发明的这个简单、易于理解和使用的概念,p值在几百年的时间里一直被统计学家、其他领域的科学家反复地使用着。它是判断统计显著性的标准,被神话成判断统计真实性的标准,是信心的保证,甚至作为学术论文能否发表的“潜规则”。

但是,也有一些反对的声音不绝于耳。有人把p值比喻成蚊子(驱散不去又时刻围绕在你身边);也有人把它比作皇帝的新衣(自欺欺人)。还有一种不太友好却又一针见血的说法,说p值是“不育的风流才子手中的工具”“才子强抢了科学佳人,却让科学佳人后继无人”。

p值存在很多问题,其中一项很严重的就是“p值操纵(p-hacking)”。意思是通过不断增大样本量来获得自己想要的p值、得到自己期望的结论。随着这个时代数据越来越大、越来越杂乱,时下的数据分析越来越倾向于从杂乱无章的现象中发现蛛丝马迹。这些蛛丝马迹是什么?或许没有人知道。这种情况就更加助长了滋生“p值操纵”的温床。学术界坦言,这种现象越来越不可控,比如,许多发表在著名学术期刊的心理学论文中,相当数量的p值都很“巧合地”徘徊在0.05左右。使得人们忍不住怀疑,这其间究竟有没有操纵的成分?

其实这不仅需要科学家、统计学家的努力,更需要一场学术文化的彻底变革。从统计学教材、到教学方法、到数据分析方法和如何解释结果,再到学术论文的发表标准,这些都需要改变。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。