随机样本(Random Sample)是指来自总体的、能够正确反映总体情况的元素总称。满足如下条件:
(1)被研究的总体要有明确的定义。
(2)总体的每个个体有一个已知的概率包含在该样本中。
(3)抽样过程中必须遵循随机原则。
案例1中小明就是用随机抽样的方法抽取了一个“好样本”。而事实上,在实际中产生一个“好样本”要比产生一个“坏样本”难得多。“坏样本”不是通过科学、严格的设计得到的样本,而是本着实用原则,取得的“唾手可得”的样本。
方便样本(Convenient Sample)是指研究者出于方便性的原因而选取的“唾手可得”的样本。自愿回应样本(Voluntary Response Sample)是指通过来信来电的方式收集的民情民意。大致来说,这两种方式取得的样本是有偏差的,从中得到的结论很难严格推广到总体。
在统计学中,总体是指所有需要被研究的个体,在研究之前需要被严格定义。比如,国家统计局要调查我国平均每个家庭的孩子数量。这里,我国的所有家庭就是总体。当然,“家庭”是指什么?按户口本算吗?离异家庭怎么算?等等问题,都是需要详细考虑的。
样本,是相对于总体的一个概念,指的是总体中被选中的部分。不可能去敲开每个家庭的大门询问孩子的个数,那样就变成了人口普查。人口普查每隔几年才举行一次,每次举行都倾举国之力,耗时耗力。所以,需要依赖一个较小的样本来反映较大的一个总体,这才符合经济学原理。
注意:样本的好坏,是决定性因素。就像一锅汤,如果搅拌均匀,品尝其中的任何一勺都可以尝出整锅汤的味道。好的样本一定是来自一个信息被搅拌均匀的总体,抽取的过程要满足随机性原则。案例1中,小明利用随机数表来抽取5个客户的方法虽然很落伍,却产生了一个具有代表性的“随机样本”,用它得到的结论是靠谱的。当然,随机数表产生随机数的方法已经被各种程序所取代,人们可以轻松通过写代码或者点击鼠标来获取随机数。
相反,案例2中的美国的Town Talk杂志告诉人们一个“坏样本”是如何产生的。人们根据自己的意愿选择是否打电话过去投票,因此产生了“自愿回应样本”,也在这个过程中不知不觉引入了“偏差”——样本中给支持救护车企业继续维护垄断经营的相应者过分大的权重,这使得对整体的估计丧失了公平性。
在各行各业研究中,被普遍应用的“方便样本”也同样产生“坏样本”。在商场中拦住来往的行人,说服他们做某种产品的市场调研。这样确实方便、简易、经济实惠,却也在引进偏差。在商场的行人未必就是他们产品或服务的全部受众,会被说服、愿意停留下来做问卷的行人或许是不赶时间的人,或许是性格温柔的老好人。如果受访者大多都是某一固定类型的人,结论又怎能代表总体呢?