数据挖掘技术的由来
现在,人们生活在一个信息爆炸的时代。
据估计,《纽约时报》一周报道的信息总量比18世纪一个人一生接触的信息总量还多。IDC发布的一份调研报告称,2010年创建数字信息总量将达到988 EB(1EB=10亿GB),约为2006年的6倍。2006年创建的数字信息总量为161EB,相当于有史以来所有书籍数字信息量的300万倍。
一方面,大量信息在给人们带来方便的同时也带来了一大堆问题:
第一是信息过量,难以消化;
第二是信息真假难以辨识;
第三是信息安全难以保证;
第四是信息形式不一致,难以统一处理。
正如奈斯比特在《大趋势》一文中所说的:“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息的利用率?”
面对这一挑战,数据挖掘和知识发现(DMKD)技术应运而生,并显示出强大的生命力。
另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”现象的产生。