收集的原始数据必须经过加工整理才能用于分析。数据整理既是数据收集工作的继续,又是数据分析工作的前提。调查获得的原始资料是个体的、零散的和不系统的。整理可以使资料系统化、条理化,并使原始资料过渡到反映总体特征的资料。
数据整理一般包括数据预处理、数据分类或分组、数据的图表显示等内容。
1.数据预处理
数据预处理包括对个体资料的编码、审核、排序、筛选等内容。
(1)编码。编码就是赋予变量值数字代码,便于计算机识别。
(2)审核。对原始数据进行审核主要是审核其完整性和准确性。
① 完整性审核是指检查调查单位是否遗漏,调查项目的填写是否齐全。
② 准确性审核是指检查填写的数据是否有错误。对二手数据,除了审核其完整性和准确性之外,还要审核其适用性和时效性,确保二手数据的口径与分析的任务相一致。在对原始数据进行审核和处理时,数据处理人员有时需要对某些数据进行折算、差分,将数据标准化,用插值的方法补齐空缺的数据等,以减少数据的计量单位、缺失值等因素对分析结果的影响。
(3)排序。数据排序就是按一定顺序排列数据。排序有助于数据的检查和纠错,也能为分类或分组提供依据。
(4)筛选。数据筛选是将符合某种特定条件的数据筛选出来。通过筛选,分析人员可以剔除有明显错误的数据。
2.数据分类或分组
数据整理的关键是数据的分类或分组。
3.图表显示
表格和图形是展示数据整理结果的主要形式。
