数据集成过程中导致数据冗余:如何识别

2021年2月20日07:39:41数据集成过程中导致数据冗余:如何识别已关闭评论

数据集成过程中导致数据冗余:如何识别

数据集成往往导致数据冗余,例如,

1)同一属性多次出现;

2)同一属性命名不一致导致重复。

仔细整合不同源数据能减少甚至避免数据冗余与不一致,从而提高数据挖掘的速度和质量。对于冗余属性要先分析,检测到后再将其删除。

有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。