数据挖掘逐渐演变的过程
数据挖掘其实是一个逐渐演变的过程。
在电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关注的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类问题。
随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程。知识工程不同于机器学习那样给计算机输入范例,让它生成规则,而是直接给计算机输入已被代码化的规则,计算机是通过使用这些规则来解决某些问题的。
专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等缺点。
20世纪80年代,人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。
在20世纪80年代末出现了一个新的术语——数据库中的知识发现,它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用它来描述整个数据挖掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘来描述使用挖掘算法进行数据挖掘的子过程。
但最近人们却逐渐发现,数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机地结合起来。
数据仓库技术的发展与数据挖掘有着密切的关系。
数据仓库的发展是促进数据挖掘越来越受欢迎的原因之一。
但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘出信息。