未响应误差
在实践中,即使按照合理的方法设计了统计调查方案,将抽样误差事先控制在可接受的范围内,但出于各种原因,仍然无法获得每一个被选入样本的总体单元的数据,而这部分数据的缺失所造成的样本估计结果与总体真实情况之间的偏差就是 未响应误差(nonre-sponse error) 。此类问题主要发生在调查对象是人的情况下。
通俗地讲,在任何一个对人进行调查访问的过程中,都或多或少地存在着受访者没有回答或拒绝回答问题的情况。例如,街头拦截式的随机调查,有些路人愿意配合回答问题,有些路人则可能因为时间紧张或其他原因拒绝接受访问;随机拨打号码的电话调查,可能因为拨打电话的时段户主经常不在家而造成无人接听的情况;网络购物平台通过电子邮件调查用户的消费体验,也可能被个别用户自动设置为垃圾邮件不予回应等。
近年来,随着各种统计调查的“泛滥”,尤其是频繁出现以调查作为伪装来推销产品或服务,导致拒绝参与任何形式调查的人群的比例呈现上升趋势。因此,如何尽量保证一个高的响应率是研究者们在收集数据的过程中必须考虑的另一个关键问题。而在获得数据之后,对于未响应误差的分析同样至关重要。
经验表明,如果在最初选中的抽样对象中,未响应者占到的比例并不高,例如,只有20%甚至更低,那么在大多数情况下,只要抽样方案合理,最终的样本量足够大,就可以在一定程度上假定未响应者和响应者并无太大差别,响应者的回答足以代表其他未响应者。但是,如果响应率很低,例如不超过50%,那么此时的未响应误差可能会较为显著,影响到样本的代表性,需要谨慎使用。有研究人员指出,美国总统选举调查中较低的响应率是加大预测偏差的重要因素之一,因为在拒绝回答问题的受访者之中,可能存在大量“隐形”的特朗普的支持者,这些人对宣称是特朗普的支持者感到羞耻,所以没有接受调查,最终导致严重的未响应误差。
显然,造成受访者未响应的原因有很多,包括由于对调查不感兴趣或对调查人员不够信任等主观原因造成的拒访,也包括由于时间冲突、身体状况不佳等客观原因造成的无法接受调查等。因此,一方面可以通过一些预防性的措施有针对性地提高响应率,例如,加强问卷设计的趣味性和奖励力度,挑选合适的调查人员和调查时间,条件允许下对未响应者进行再调查等;另一方面,分析未响应者的基本特征,尽可能降低随机因素之外的其他因素可能带来的响应者与未响应者之间的差别,将未响应误差控制在可接受的范围内;最后,必要时还应对存在未响应的数据进行调整,达到纠偏、校正的补救效果。
响应误差
调查过程中回答了问题的受访者所提供的答案是人们最终进行决策的主要数据来源,因此,如果受访者的回答与真实情况并不吻合,就会直接导致样本数据估计结果与总体真实情况之间的偏差,这就是 响应误差(response error) 。引起响应误差的因素同样十分广泛。
1. 调查问卷设计不周可能带来的误差
例如,调查中问题的措辞是否容易引起人们的困惑,用词不准确、不恰当造成受访者的不理解甚至误解;问题设置的答案是否能够涵盖受访者所有可能的选择,是否会对本没有观点的受访者产生人为的引导作用;问题数量过多使得受访者厌烦,对设置靠后的问题不再认真回答等。
2. 受访者自身因素可能带来的误差
即使问卷设计科学合理,受访者本人也可能因为各种主客观原因没有提供真实的答案。这包括由于对调查内容记忆不清而造成的无意识误差,也包括对一些敏感问题往往存在倾向性回答而造成的有意识误差。例如,受访者被问到自己的学历、职务职称时可能有高报倾向,而被问及收入时则可能有低报倾向。
3. 调查人员自身因素可能带来的误差
在大多数情况下,调查都是人与人之间交流沟通的过程。调查人员的年龄、性别、身份、受教育程度等都可能对受访者的回答产生影响,如果在调查过程中,调查人员把自己的思想、观点、看法等与受访者进行交流,还可能对受访者的回答产生诱导作用。因此,针对调查内容和调查对象的不同,安排合适的调查人员,不仅可以在一定程度上提高响应率,还可以通过恰当的交流降低因为前两个方面的因素可能带来的响应误差。