KDD与数据挖掘的关系
根据Fayyad等人(1996)对KDD的定义——它是一个指出数据中有效、崭新、潜在效益的非细琐(nontrivial)流程,其最终的目标是了解数据的模式(patterns)。
其流程步骤是:
先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并关注所选择(selection)的数据子集;
再对目的数据作预处理(pre-processing),去除错误或不一致的数据;然后作数据简化与转换工作(transformation);
再通过数据挖掘的处理成为模式(patterns)、做回归分析或找出分类型态;
最后经过解释/评估成为有用的知识。这些程序是一个循环的关系,一直重复的步骤,最后才得到一些有用的知识。
所以,KDD是一系列的程序,数据挖掘只是其中的一个步骤而已。