数据清洗的评估实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量的评价指标等。
在进行数据质量评估时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。但是,数据质量评估至少应该包含以下两方面的基本评估指标。
(1)数据对用户必须是可信的
数据可信性主要包括精确性、完整性、一致性、有效性和唯一性等指标。
● 精确性:描述数据是否与其对应的客观实体的特征一致。
● 完整性:描述数据是否存在缺失记录或缺失字段。
● 一致性:描述同一实体的同一属性的值在不同的系统是否一致。
● 有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。
● 唯一性:描述数据是否存在重复记录。
(2)数据对用户必须是可用的
数据可用性主要包括时间性和稳定性等指标。
● 时间性:描述数据是当前数据还是历史数据。
● 稳定性:描述数据是否稳定,是否在其有效期内。