正态分布,又称高斯分布,是概率统计中最常用的概率分布,正态分布是连续随机变量的概率分布,在描述连续随机变量的分布时,我们使用概率密度函数f(x),而不是P(X),f(x)来源于微积分,这里不做详述,读者们可以把f(x)当作P(X)的一种微观表达方式。
如果随机变量X的概率密度函数为
则称X服从正态分布。我们不需要记住这个复杂的公式,但一定不能忘记正态分布那条完美的钟形曲线,如图4-6所示。
正态分布的期望为μ,方差为σ2,标准差为σ,我们常把期望为μ、方差为σ2的正态分布记为N(μ,σ2),随机变量X服从该分布记为X~N(μ,σ2)。图4-6是标准正态分布N(0,1)的概率分布曲线,从图中可以看出,标准正态分布关于x=0左右对称,此外,图4-6还标注了随机变量X的值落在[-1,1]、[-2,2] 和[-3,3]区间的概率大小,X的值处于[-3,3]区间的概率达到了99.7%,接近100%!这个特性叫作“3σ法则”,它可以拓展到所有的正态分布,即服从正态分布N(μ,σ2)的随机变量的值几乎一定会落在[μ-3σ,μ+3σ]这个区间内。
图4-6 正态分布
正态分布是“最常用”的概率分布,这可不是空穴来风,正态分布有一种独一无二的能力——化繁为简。
在庞加莱称面包的例子中,庞加莱一口咬定,面包的重量服从正态分布,这是为什么呢?面包虽小,所含的成分却不少,面粉、水分、盐、酵母甚至空气都是面包的成分,每一种成分的重量都有或多或少的随机性,要计算这些随机变量相加之后的概率分布一定十分复杂,大概只有天才数学家才能搞定吧。其实不然,或许庞加莱连面包的成分都不清楚,但他可以确定,面包的重量服从正态分布,因为他懂得——中心极限定理。
中心极限定理是与大数定理并列的重要概率理论,它有几种不同的表达方式,核心思想是,大量的独立随机变量相加,不论各个随机变量的分布是怎样的,它们的加和必定会趋向于正态分布。面包里虽然有很多种未知分布的随机成分,只要这些成分加在一起,一块面包的重量便会服从正态分布。
“大数定理”的另一种表达方式是“均值定理”,其含义是,随机变量X多个观察值的均值会随着观察值的增加越发趋近于期望值μ,中心极限定理进一步告诉我们,均值服从期望为μ的正态分布。
在各种测量试验中,我们一般都认为,测量结果的均值服从正态分布,根据总体均值估计的结论,正态分布的期望μ是应与观察值的均值近似相等,这就是庞加莱用来证明面包店缺斤短两的数学原理。