贝叶斯统计学与内曼-皮尔逊统计学的共通点
标准统计学(内曼-皮尔逊统计学)与贝叶斯统计学在思考方式、逻辑等方面有很多不同之处。由此可知,这两种统计学之间的差异之大,不可忽视。
其中,尤其明显的一点是, 贝叶斯统计学中需要设定先验概率,而内曼-皮尔逊统计学中则完全不涉及这一概念。 先验概率是指,对于接下来将要推理的事物,先设想出多个可能的原因,并为这些原因设定“可能的程度”,即先验概率。
那么,这种设想是贝叶斯统计学中特有的吗?实际上并非如此,内曼-皮尔逊统计学中也有与此相通的设想,本讲内容也会阐明这一点。特别是对于很多对贝叶斯统计学的先验概率抱有排斥感的人来说,理解二者之间共通的设想,将有助于缓解这种排斥感。
“极大似然原理”被运用到众多学科当中
标准统计学与贝叶斯统计学的共通之处,在于一种被称为“极大似然原理”的思考方式。
简单来说,“极大似然原理”的含义就是: 世界上正在发生的事件,之所以发生,是因为它发生的概率大。
例如,假设引起 X 象和Y现象的原因,有A和B两种。假设在A原因的情况下, X 现象发生的概率远大于Y现象发生的概率。相反,在B原因之下,Y现象发生的概率则远大于 X 现象发生的概率。那么,假设现在观察到了 X 现象。那么此时的原因是A还是B呢?
当然,A和B的可能性都存在。但是, 如果一定要选一个的话,那么还是应该选A才更为妥当。 这种思考方式就是所谓的“极大似然原理”。
我们在日常生活当中,也经常会用到上述思考方式。比如,有人忘记带东西,假设这个人不是A就是B,而这两个人中,A是会经常忘带东西的那个,B则是很少会忘带东西。那么这时,一般我们会推测,忘记带东西的人是A而不是B。
极大似然原理已经植根于我们的思维方式之中,因此被运用到众多学科领域。特别是物理学的一个分支——统计物理,就是利用了极大似然原理来解释各种物理现象。
贝叶斯推理以极大似然原理为基础
贝叶斯推理也运用了极大似然原理,这一点是显而易见的。
回想一下第6讲中的关于壶的推断的问题。从A壶中观察到白球的概率大,而从B壶观察到黑球的概率大。那么现在观察到了黑球,因此判定“该壶应该为B壶”。做出该判断的时候, 选择的是使结果的概率最大的那个原因, 这正是极大似然原理的体现。在第7讲中,也说明了该推断方法与贝叶斯推理是完全一致的。
下面再来看 图表7-4 。在推算后验概率时,关键的一点是:对“该壶为A壶且出现黑球”的概率与“该壶为B壶且出现黑球”的概率进行比较。这一比值也是A与B的后验概率之比(1:8)。由于后者的概率明显更大,因而得出“该壶为B壶”的结论。这一思考过程,与“因为原因B会使得观察到黑球出现的概率更大”的道理是相同的,都运用了极大似然原理。
图表7-4 两种可能性的消失
回想第3讲中,运用“理由不充分原理”进行贝叶斯推理的例子中讲到:
后验概率为(先验概率)×(条件概率)的比例。
因此,先验概率大或条件概率大的原因,更容易被选择,这也体现了极大似然原理。
内曼-皮尔逊统计学也以极大似然原理为基础
那么,标准统计学(内曼-皮尔逊统计学)是否也与极大似然原理有所关联呢?事实上,极大似然原理并不是运用于推理本身,而是 运用于“为统计推理添加依据”的过程当中 。
“为统计推理添加依据”是指,在统计学中进行推理时,对于 “为什么要这样思考”“这样的思考方式会带来怎样的好处”等问题进行的说明。 这里以一种叫作 “点推理” 的统计推理为例,来具体说明。
现在,假设有一种现象,每天发生一次,或不发生一次。例如“客人总数超过100人”的现象,假设其发生的概率为p,则不发生的概率便为1-p。以10天为单位,对该现象进行观察,结果是10天当中有4天发生了,而剩余的6天没有发生。这时,推断概率p为多少才算合适呢?
关于这一点,最自然的推断应该是这样的:既然10天中有4天发生了该现象,那么概率p应该是4÷10=0.4。这与统计学中,求“发生次数的平均值”,并以此作为p的推断值,道理是相同的。如果用数值1表示该现象发生,数值0表示该现象未发生,那么观察的数值中,1有4个,0有6个。用相加之和10来相除,平均值为0.4。
此处,有一个疑问是:为何要将发生次数的平均值作为该现象发生概率p的推断值呢?仔细想想,“在这几次当中,该现象发生了几次”与“该现象发生的概率”,其实并没有直接的关联。而为其添加理由的时候,就是运用了极大似然原理。
关于发生概率为p的现象,以下,将“10次中恰好有4次发生该现象的概率”L用含p的公式来表示。计算方法会在第10讲中进行解说,此处只给出结果。
“10次中恰好有4次发生该现象的概率”
L=210×p 4 ×(1-p) 6
那么,当概率p发生变化时,概率L的数值又将变为多少呢?下面我们用表计算软件来进行计算。将上述函数用 图表8-1 来表示,概率p为横轴,概率L的数值为竖轴。
图表8-1 概率L的数值
例如,当p=0.2时,按上述公式210×0.2 4 ×0.8 6 计算,得出L约为0.088的结果,即横轴0.2处所对应纵轴的高度。通图看表可知,当p=0.4时,L达到最大值。那么换言之,将平均值0.4设定为p时,观察到的结果(10次中有4次发生该现象)的概率L也将最大。因此,在通常的统计推理中,我们一般会将p推算为0.4,并将0.4称为p的 “极大似然推算量” 。这里使用了“极大似然”这一术语,因此,该方法中运用了极大似然原理,也是显而易见的。实际上,由于p=0.2时的结果L的概率约为0.088,p=0.4时的结果L的概率约为0.25,所以我们认为,使结果的概率变大的原因p=0.4是最佳的。
“极大似然估计量”恰好等于平均值,并不仅限于该例。
关于这一点,可以很轻松地证明出来:观察N次,其中发生了 x 次,此时的极大似然估计量就是 x ÷N(使用微分法)。总之, 极大似然原理与平均值这一统计量密切相关。
在这里,改变概率p,与在现象发生的原因(类别)中设定先验分布,并使之变化的道理是类似的。因而我们可以这样理解:极大似然估计量的思考方式与贝叶斯推理是存在共通之处的。
总之,以极大似然原理为桥梁,可以让我们明白:标准统计学与贝叶斯统计学之间,存在着 共通共融的思想 。