被雷劈、中彩票、飞机失事等小概率事件总是让人难以捉摸,它们很少发生,几乎无法预测,即便如此,概率统计还是有办法用数学公式来描述它们。泊松分布正是用来描述那些无法预测的小概率事件发生次数的分布,设随机变量X表示某事件发生的次数,若X服从泊松分布,则有
公式中的λ(英文写作lamda)是一个常数,泊松分布的期望和方差都是λ,图4-4是λ=1时的泊松分布图。
当k=0、λ=1时,P(X=0)=1/e,这便是小概率事件定律的数学原理。
泊松分布在生活和科研中的应用十分广泛。比如每个小时进入银行办理业务的人数、报纸上每一页的错别字数量、某个网页的点击量。网页的点击量?你肯定会对这个例子表示质疑,因为点击某个网页未必是小概率事件,如果这个网页是谷歌、百度的首页怎么办?
答案是缩短时间跨度。泊松分布描述的是一个小概率事件在单位时间内发生的次数,这里的“单位时间”是可以任意指定的,对一个热门网页来说,一秒的点击量可能都有上万次,肯定算不上小概率事件,那么我们就把单位时间调整到一毫秒甚至一微秒,在那样的“单位时间”里,网页点击一定可以算作小概率事件了。
另外,泊松分布所描述的事件一定是无法预测的随机事件,以网页点击来说,全球几十亿网民随时可能会点击某个网页,如此难以预测的事件一定是随机事件。
图4-4 泊松分布
回顾泊松分布的表达式,除了自然对数底e之外,还有一个常数λ,这个常数是怎么来的呢?
这需要从二项分布谈起。我们知道,美式大转盘共有38个数字,每一局只会出现一个数字,所以每个数字出现的概率都是1/38。以数字“00”为例,“00”在每一局中出现的概率都是p=1/38,那么,在n=38局游戏中,“00”出现k次的概率是多少?
我们把每一局的结果分为“00”和“非00”两种结果,于是,大转盘游戏变成了一个伯努利试验,回顾上一节学习的二项分布,“00”出现k次的概率是
在这里,我们特意选择了n=38局,是因为我们需要np成为一个常数,这个常数就是λ。我们设λ=np是一个常数,用λ/n代替p,可以得到
泊松分布出现了,它是二项分布的近似表达式。在上面的例子中,n=38,p=1/38,因此λ是1。我们也可以令λ为其他常数,只要你取适合的n和p就可以了。
在求解概率问题的过程中,如果n>20并且p<0.05,我们就可以用泊松分布来近似二项分布,这种近似会帮助我们大大简化计算过程。