(一)数据筛选
数据筛选通常包括两方面:
1.纠错或剔除 一般经数据审核中的专业检查、统计检查、逻辑检查和计算机检查等,可以发现数据中的错误,然后通过核对,对错误数据进行纠正,无法纠正者予以剔除。
2.筛选数据 通过资料搜集可得到大量数据,但有时并非所有数据都与研究目的有关。此时,需要根据研究目的或要求,从所有数据中选择研究所需资料。
(二)数据处理
1.变量设置
统计资料一般分为数值型和分类型两种。数值型资料有确切的观测值,可直接录入计算机,如人的身高、体重等。分类型资料则需要进行数量化处理之后,计算机才能识别和运算。总之,变量的设置方式比较灵活,应综合考虑资料的类型、研究目的、变量的分布及统计分析方法的应用条件。
2.离群值的处理
离群值(outlier)即个别离群较远的数据。一般认为在±3倍标准差以外区域出现的点所对应的原始数据为离群值;在±2倍标准差以外、±3倍标准差以内区域出现的点对应的原始数据可能为离群值。在离群值产生原因未明之前,不能简单决定其取舍,尤其是观测值个数较少时,离群值的取舍对分析结果会产生很大影响,须慎重对待。
其处理分两种情况:
①若确认数据有逻辑错误,又无法纠正,可把数据直接删除。
②若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若两次结果不矛盾,则不剔除;若结果矛盾,并需要剔除,须给出充分合理的解释。
3.缺失值的处理
缺失值(missing data)即在统计资料构成的行列表中,行列相交的单元格中未能记录应有的数据。数据缺失是统计资料中常见的问题,其危害大小取决于缺失的方式、缺失数据的数量和缺失的原因,其中最重要的是缺失方式。缺失值的处理常见的有删除存在缺失值的记录或变量,估计缺失值和建立哑变量等,应根据具体情况选择适当的处理方法。
4.数据分组
数据分组的方法很多,最常用的是:
①数量分组:即按照研究对象某项指标数量的大小进行分组,如按照年龄的大小、血压的高低等分组,适用于数值型资料。
②性质分组:即按照研究对象的性质、特征或类型等分组,如按照性别、血型等分组,适用于分类型资料。
5.数据排序
有时需要对数据进行排序,常见的排序方法有升序、降序和按习惯排序等。