如果某种试验只有“成功”和“失败”两个可能结果,在重复 n 次试验的过程中,各次试验并不独立,每次试验“成功”的概率也不相等,则此时“成功”的次数就不再服从二项分布,而是超几何分布(hypergeometric distribution)。
例如,一批产品总数为 N ,次品个数为 M ,从中无放回地随机抽取 n 个产品。与上面提到的有放回抽样不同的是,由于每次试验抽中的产品不被放回,因此下一次试验抽取的产品总数不断发生变化,次品占到的比例(即“成功”的概率)也不断发生变化,那么抽取的 n 个产品中包含的次品数 X 服从超几何分布。
一般地,用 N 代表总体中 单元 的个数, M 代表总体中“成功”的 单元 的个数, n 为试验次数, n 次试验中“成功”的次数 X 服从超几何分布,记作 X~H ( n , N , M )。具体地, n 次试验中“成功” k 次(即 X=k )的概率可表示为:
其中, l =min( M , n )。
可以进一步推导得到超几何分布的均值和方差分别为:
【例1-1】
假设除夕夜你和父母包了20个饺子,并在其中3个饺子里各放进了一枚硬币。饺子都煮熟后,你和父母三人各随机夹了一个,试计算:
(1)你们3个人都吃到硬币的概率是多少?
(2)你们3个人至少有1个人吃到硬币的概率是多少?
解:
根据题意,每吃一个饺子相当于一次试验,由于感兴趣的是“有硬币的饺子”的个数,因此将吃到“有硬币的饺子”定义为“成功”。饺子一共有20个(即总体的 单元 个数),其中有3个饺子有硬币(即“成功”的 单元 个数),显然每吃一个饺子都是无放回的随机试验,因此,你和父母三人所吃的3个饺子中“成功”的次数 X 服从超几何分布 H (3,20,3)。
使用Excel中的【HYPGEOM.DIST】函数可以分别计算得到:
(1) P ( X =3)= p (3)=0.000 877;
(2) P ( X ≥1)= p (1)+ p (2)+ p (3)=1- p (0)=0.403 509。