数据集成过程中导致数据冗余:如何识别 发表评论 A+ 所属分类:数据挖掘 收 藏 数据集成过程中导致数据冗余:如何识别 数据集成往往导致数据冗余,例如, 1)同一属性多次出现; 2)同一属性命名不一致导致重复。 仔细整合不同源数据能减少甚至避免数据冗余与不一致,从而提高数据挖掘的速度和质量。对于冗余属性要先分析,检测到后再将其删除。 有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性。