目前,数据清洗主要应用于三个领域:数据仓库、数据挖掘和数据质量管理。
(1)数据清洗在数据仓库中的应用
在数据仓库领域,数据清洗一般是应用在几个数据库合并时或多个数据源进行集成时。例如,指代同一个实体的记录,在合并后的数据库中就会出现重复的记录。数据清洗就是要把这些重复的记录识别出来并消除它们,也就是所说的合并清洗(Merge/Purge)问题。不过值得注意的是,数据清洗在数据仓库中的应用并不是简单地合并清洗记录,它还涉及数据的分解与重组。
(2)数据清洗在数据挖掘中的应用
在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如数据缺失、数据值异常等。对于这些情况,如果不加以处理,就会直接影响到最终挖掘模型的使用效果,甚至使得创建模型任务失败。因此在数据挖掘(早期又称为数据库的知识发现)过程中,数据清洗是第一步,即对数据进行预处理。不过值得注意的是,各种不同的知识发现和数据仓库系统都是针对特定的应用领域进行数据清洗的,因此采用的方法和手段各不相同。
(3)数据清洗在数据质量管理中的应用
数据质量管理贯穿数据生命周期的全过程。在数据生命周期中,数据的获取和使用周期包括系列活动,如评估、分析、调整、丢弃数据等。因此数据质量管理覆盖质量评估、数据去噪、数据监控、数据探查、数据清洗、数据诊断等方面。在此过程中,数据清洗为衡量数据质量的好坏提供了重要的保障。