数据质量的评估标准:完整性、一致性、准确性、及时性
数据质量是保证数据应用的基础,采集来的原始数据可能存在质量问题,需要通过一定的标准来对数据进行评估。对于未通过评估的数据,将采取一系列的后续方法进行处理。
评估数据是否达到预期的质量要求,就可以通过这4个方面来进行判断。
1.完整性
完整性是指数据信息是否存在缺失的情况,数据缺失可能是整个数据的缺失,也可能是数据中某个字段信息的缺失。数据完整性是数据质量最为基础的一项评估标准。
数据质量的完整性比较容易评估,一般可以通过数据统计中的记录值和唯一值进行评估。例如,网站日志的日访问量就是一个记录值,若平时的日访问量在1000左右,突然某一天降到100了,就需要检查一下数据是否缺失了。再例如,统计地域分布情况时,每一个地区名就是一个唯一值,我国包括32个省和直辖市,如果统计得到的唯一值总数小于32,则可以判断数据有可能存在缺失。
2.一致性
一致性是指数据是否遵循了统一的规范,数据之间的逻辑关系是否正确和完整。规范是指一项数据存在它特定的格式,例如,手机号码一定是13位的数字,IP地址一定是由4个0~255间的数字加上“。”组成的。逻辑是指,多项数据间存在着固定的逻辑关系,例如百分率一定是在0~1之间的。
3.准确性
准确性是指数据中记录的信息和数据是否准确,数据记录的信息是否存在异常或错误。与一致性不同,存在准确性问题的数据不只是规则上的不一致。导致一致性问题的原因可能是数据记录的规则不一,但不一定存在错误;而准确性关注的是数据记录中存在的错误,如字符型数据的乱码现象就存在着准确性的问题,还有就是异常的数值:异常大或者异常小的数值、不符合有效性要求的数值等。
4.及时性
及时性是指数据从产生到可以查看的时间间隔,也称数据的延时时长,是数据世界与客观世界的同步程度。数据的及时性主要与数据的同步和处理过程的效率相关。