什么是经验分布函数

2022年5月31日19:50:09已关闭评论

一个随机变量的真实分布函数一般是未知的，有时我们只能够推测分布函数的形式，或将推测作为真实分布函数的一个近似。根据样本的观测值作经验分布函数图，以此来作为整个未知分布函数 F （ x ）的估计，这是推测分布函数的一种好方法。下面将用具体的例子来介绍这种估计方法，由此我们给出定义：

【定义1.4】设 X ₁， X ₂，…， X _n是一组随机样本，经验分布函数 S （ x ）（简称为EDF）是 x 的函数，它在 x 点的取值为小于或等于 x 的 X _i在样本总数中所占的比例，其中-∞＜ x ＜∞。

【例1.3】在一项体能研究中，一高中随机抽取了5名男生，记录他们跑完1英里的时间。时间（转化成分钟后）分别为6.23，5.58，7.06，6.42，5.20。由于经验分布函数 S （ x ）是小于或等于 x 的 X _i在样本总数中所占的比例，根据这组特定样本有如下经验分布函数：

我们也可以很方便地画出该经验分布函数的图象，并且从例1.3中可以看出，经验分布函数总是阶梯函数，每阶的高度是1/ n ，并且只在样本取值处有变化。我们从左到右来考虑经验分布函数的值，注意到 S （ x ）在样本最小值前均取值为零，在每个样本取值处会增加一阶的跃度，每个跃度是1/ n 。在样本最大之处 S （ x ）取最大值1，并且在剩下所有比样本最大值大的 x 处都取1。 S （ x ）很像非降的取值从0到1的分布函数。但 S （ x ）只是由经验（来自样本）确定的，并由此而得名。

例1.3只描述了 S （ x ）的一组观测值，其他的样本值将产生另外不同的经验分布函数 S （ x ），对应的图象当然也不同。这表明了 S （ x ）的随机性，从这个意义上讲，它是一个随机变量。但是，由于它是一个函数，且观测值是整个图象而不是单个值，所以称 S （ x ）为随机函数（random function）更加合适。因为它能够相当好地估计随机变量的分布函数，所以它通常用作一个估计量。为了区分经验（或样本）分布函数，我们称随机变量的分布函数为总体分布函数。

从某种意义上讲，经验分布函数的观测值可以认为是总体分布函数的取值，准确地讲，基于样本观测值 x ₁， x ₂，…， x _n， S （ x ）的一个观测值和取 x ₁， x ₂，…， x _n中每个值的概率都是1/ n 的随机变量的分布是一样的。这种随机变量的分布函数是一个阶梯函数，且在每个数值 x ₁， x ₂，…， x _n处的跃度为1/ n ，因此，我们很容易得到随机变量的均值、方差和分位数。

登录 找回密码

登录找回密码