数据集成过程中导致数据冗余:如何识别 2021年2月20日07:39:41数据集成过程中导致数据冗余:如何识别已关闭评论 数据集成过程中导致数据冗余:如何识别 数据集成往往导致数据冗余,例如, 1)同一属性多次出现; 2)同一属性命名不一致导致重复。 仔细整合不同源数据能减少甚至避免数据冗余与不一致,从而提高数据挖掘的速度和质量。对于冗余属性要先分析,检测到后再将其删除。 有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性。 赞 0 分享