分层最佳抽样又称“非比例抽样”,是根据各层基本单位标准差的大小,来确定各层样本数目的抽样方法。在各层内部差异较大、某些层的重要性大于其他层的情况下,采取非比例抽样时,在这些层抽取的样本数就多;反之,抽取的样本数就少。
公式:
n i 为第 i 层应抽出的样本数目; n 为样本总数; N i 为第 i 层的调查单位数; S i为第 i 层调查单位的样本标准差。
某疾病控制中心想对某社区居民的营养状况进行调查,社区共有居民1000户,其中高收入户居民家庭为200户,中收入户家庭为600户,低收入户家庭200户,采用抽样调查需要从中抽选100户家庭。又已知高收入户收入的标准差为300元,中收入户收入的标准差为200元,低收入户收入的标准差为100元,请用分层最佳抽样法分配各层的样本数目。
本题中,已知各层居民收入标准差 S i 和各层的调查单位数 N i ,计算结果见表3-2。
表3-2 各经济收入层次的分层计算结果
按公式(3-2)计算,各层抽样的数目为:
高收入层样本数目: n 1 =100×60000/200000=30(户)
中收入层样本数目: n 2 =100×120000/200000=60(户)
低收入层样本数目: n 3 =100×20000/200000=10(户)
应用分层最佳抽样方法计算出的各层样本抽取数与分层比例抽样法抽出的样本数相比,可以看出:家庭收入高的层次抽样的样本增加了10户(从20户变为30户),家庭收入中等层次抽样的样本数仍然为60户,而家庭收入低的层次抽样的样本数减少了10户(从20户变为10户)。
高收入层次和低收入层次的单位数都是200户,为什么从高收入层次中产生的样本数目是30户,从低收入层次中产生的样本数目只有10户呢?这是因为高收入层次收入的标准差大(300元),表示在高收入家庭中家庭收入差别比较大,从中抽取样本数目就要多一些;低收入层次收入的标准差小(100元),说明低收入家庭的收入差别比较小,从中抽取的样本数可以少一些。
这样抽选到的样本比原先仅考虑分层比例抽样的样本更具有对总体的代表性,对总体情况的推断会更加准确。