研究者使用多种不同的方法来选择样本,有时研究者会使用典型抽样(判断抽样的一种),即从总体中选择若干个典型的单位进行深入调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律,因此选择典型单位应该具有研究问题的本质或特征。有时研究者会使用随机抽样,样本是随机选择的,希望样本中个体之间的差异性和总体中个体之间的差异也是随机的。有时研究者会使用方便抽样,即选择样本是为了获取样本的便利性,而不是为了代表较大的人群。当我们选择的样本不能充分代表我们需要考察的总体时,违反正态分布假设的问题就凸显了。
正态分布与抽样方法之间的关系是这样的:
从正态分布导出的概率密度分布取决于分布的形状和样本是否对总体(即研究者所关注的研究对象)具有代表性(样本特征是否能够反映总体特征)。如果我们从总体中随机抽取样本,那么每一次抽样的样本形状都是不同的。但是这种不同样本之间的形状不同都是随机抽样方法带来的。换句话说,就是我们的抽样样本具有无偏性。问题来了,什么是无偏性?
下面我们通过对随机抽样方法和方便抽样方法进行比较来说明无偏性的含义。假如我们需要对全市的学生进行抽样,如果我们仅仅从离我们家近或者离我们工作单位近的学校抽取学生的话,那么结果很有可能是我们抽中的学生的特征是相似的,那么我们抽取的这部分学生的特征将不能代表全市学生的特征,也就是说,不能反映全市学生特征的差异性。那么这个抽中的样本就是与总体存在偏差的样本,即有偏抽样。
设想一下,如果我们生活和工作的地区位于北京市海淀区中关村大街,附近有多所双一流和985高校,包括北京大学、清华大学和人民大学等。如果我们使用方便抽样的方法对该区域学生的成绩进行调查,且需要证明我们的样本代表了北京市高校的学生,那么基于正态分布假设的概率密度分布可能会不适用。之所以这样,是因为我们获取的样本(学生)平均成绩比北京市高校学生平均成绩高的可能性更大,所以这个抽取的样本不是无偏样本,我们用该样本对北京市高校学生成绩的估计将是不可靠的。