大数定律决定试验多次后平均值的极限,但并未涉及事件频率(或者概率)的分布问题。随机变量取值概率形成的分布称为概率分布。概率分布函数在概率论中有其严格的定义,这里我们首先从通俗意义上理解一下“分布”。
比如说,统计100个3岁男孩的身高数据,结果如图1-6-1(a)左边的表格所示。
概率分布函数和概率密度函数之区别见图1-6-1(b)。
我们可以将男孩的身高看作一个随机变量,这100个数据代表身高的100个样本值。这些样本值从91cm到100cm变化,表中没有给出每个样本的准确数值,只给出了每1cm范围中的样本数目(人数)。位于每一段身高范围中的人数可以转换成身高取值在该范围的概率,分别对应于1-6-1(a)右图中的两个垂直坐标轴。由此数据可计算身高的平均值大约为95.5cm。显而易见,平均值仅仅描述了这100个数据的部分特征,并不能说明100个数据在每个值附近的分布情况。也就是说,分布描述的是每一个不同的数据段中的人数,在总人数中所占的比例,也就是概率。
比如,从1-6-1(a)右图可知:男孩身高在95~96cm的概率是22%,93~94cm的概率是14%,99~100cm的概率是2%……
图1-6-1 概率分布函数和概率密度函数例子
(a)3岁男孩身高的分布;(b)分布函数和密度函数
图1-6-1(a)右图所示图像的包络线是概率分布的密度函数 p ( x )。
另一个相关概念是概率分布函数 P ( x 0 ),指的是 x < x 0 范围内事件发生的概率。
概率分布函数和概率密度函数之区别见图1-6-1(b)。