一个随机变量的真实分布函数一般是未知的,有时我们只能够推测分布函数的形式,或将推测作为真实分布函数的一个近似。根据样本的观测值作经验分布函数图,以此来作为整个未知分布函数 F ( x )的估计,这是推测分布函数的一种好方法。下面将用具体的例子来介绍这种估计方法,由此我们给出定义:
【定义1.4】设 X 1 , X 2 ,…, X n 是一组随机样本,经验分布函数 S ( x )(简称为EDF)是 x 的函数,它在 x 点的取值为小于或等于 x 的 X i 在样本总数中所占的比例,其中-∞< x <∞。
【例1.3】在一项体能研究中,一高中随机抽取了5名男生,记录他们跑完1英里的时间。时间(转化成分钟后)分别为6.23,5.58,7.06,6.42,5.20。由于经验分布函数 S ( x )是小于或等于 x 的 X i 在样本总数中所占的比例,根据这组特定样本有如下经验分布函数:
我们也可以很方便地画出该经验分布函数的图象,并且从例1.3中可以看出,经验分布函数总是阶梯函数,每阶的高度是1/ n ,并且只在样本取值处有变化。我们从左到右来考虑经验分布函数的值,注意到 S ( x )在样本最小值前均取值为零,在每个样本取值处会增加一阶的跃度,每个跃度是1/ n 。在样本最大之处 S ( x )取最大值1,并且在剩下所有比样本最大值大的 x 处都取1。 S ( x )很像非降的取值从0到1的分布函数。但 S ( x )只是由经验(来自样本)确定的,并由此而得名。
例1.3只描述了 S ( x )的一组观测值,其他的样本值将产生另外不同的经验分布函数 S ( x ),对应的图象当然也不同。这表明了 S ( x )的随机性,从这个意义上讲,它是一个随机变量。但是,由于它是一个函数,且观测值是整个图象而不是单个值,所以称 S ( x )为随机函数(random function)更加合适。因为它能够相当好地估计随机变量的分布函数,所以它通常用作一个估计量。为了区分经验(或样本)分布函数,我们称随机变量的分布函数为总体分布函数。
从某种意义上讲,经验分布函数的观测值可以认为是总体分布函数的取值,准确地讲,基于样本观测值 x 1 , x 2 ,…, x n , S ( x )的一个观测值和取 x 1 , x 2 ,…, x n 中每个值的概率都是1/ n 的随机变量的分布是一样的。这种随机变量的分布函数是一个阶梯函数,且在每个数值 x 1 , x 2 ,…, x n 处的跃度为1/ n ,因此,我们很容易得到随机变量的均值、方差和分位数。