什么是冗余数据:冗余数据的处理方法
冗余数据既包括重复的数据,也包括对分析处理的问题无关的数据,通常采用过滤数据的方法来处理冗余数据。对于重复的数据采用重复过滤的方法,对于无关的数据则采用条件过滤的方法。
1.重复过滤
在已知重复数据内容的基础上,从每一个重复数据中取出一条记录保留下来,删去其他的重复数据。重复过滤=识别重复数据+过滤操作。过滤操作可以根据操作的复杂度分为直接过滤和间接过滤两种。
● 直接过滤:对于重复数据直接进行过滤操作,选择任意一条记录保留下来并过滤掉其他的重复数据。
● 间接过滤:对重复数据先进行一定的处理,形成一条新记录后再进行过滤操作。
2.条件过滤
根据一个或多个条件对数据进行过滤。对一个或多个属性设置条件,将符合条件的记录放入结果集,将不符合条件的数据过滤掉。实际上,重复过滤就是一种条件过滤。