数据自动清理:包括一致性检查、处理缺失值
数据自动清理包括检查数据的一致性和处理缺失值。虽然在数据审核和录入时会进行初步的一致性检查,但数据自动清理时的检查会更为详尽彻底,因为它完全是由计算机来完成的。
1.一致性检查 一致性检查是为了找出超出正常范围、逻辑上不合理或者极端的取值。超出正常值域范围的数据是不能用于分析的,必须进行纠正。
例如:调查对象在回答对某品牌产品喜好程度问题时,备选答案有1~5,而数据中出现了0、6或7,那么0、6或7都应视为超出正常值域范围的数据。
一般的计算机软件都能够自动识别每个变量中超出范围的取值,并列出调查对象代码、变量代码、变量名、记录号、栏目数及超出范围的取值。这样做可以系统地检查每个变量,更正时则需要回到问卷编辑和编码的部分。
具有逻辑上下不一致的答案可能以多种形式出现,在数据审核部分已有所讲述。发现不一致的数据时,还要同时明确必要的信息,包括调查对象代码、变量代码、变量名、记录号等,以便于定位和进行更正。
最后还要仔细检查极端值。并非所有的极端值都是由错误造成的,但极端值一般能显示出数据存在的问题。例如,对品牌评估的极端值就可能是由于调查对象在每个问题上都选择了第一个代码或最后一个代码所致。
2.处理缺失值 缺失值就是对某个变量的取值不明,原因可能是调查对象的答案不清楚或者记录不完整。对缺失值的处理可能带来一些问题,尤其是当缺失值超过10%时。一般处理缺失值的方法有以下几种。
(1)用均值代替 也就是用某个变量取值的平均值来代替缺失值。这样做不会改变其他变量,同时诸如相关分析等统计结果也不会受到太大的影响。但是平均值不一定能够代表调查对象对这个问题的答案,实际答案可能会高于或低于均值。
(2)用估计值代替 就是用调查对象对其他问题的回答估计出或计算出一个值来代替缺失值。采用这种方法可能通过相关统计工作来确定问题中的变量与数据已知的变量之间的关系来做到。例如,名牌产品的购买量可能与消费者的收入和职业有关,于是就可以通过调查对象的收入和职业来推算出某名牌产品的需求量。不过这种方法在很大程度上可能受到调查人员主观因素的影响。
(3)整例删除 就是将有缺失值的样本或问卷整个删除,不计入统计分析的数据之内。不过这样做可能会导致样本减少,甚至可能导致某类数据缺失,严重影响分析结果。
(4)单项删除 即研究者不是删除有缺失值的所有样本,而是分别在每一步计算中删除有缺失值的项目而采用有完整答案的问卷。因此,不同分析步骤采用的样本规模也会有所不同。这种方法适用于样本规模大、缺失值很少及变量之间没有高度相关的情况。
采用不同的处理缺失值的方法可能导致不同的分析结果,尤其是当缺失值并非随机出现,而且变量之间存在相关性时。因此,在调查中应尽量避免出现缺失值,调查人员在选择处理缺失值的方法之前也要慎重考虑其利弊。