数据挖掘的基本步骤
数据挖掘的过程会随所应用的专业领域的不同,而有所变化。
每一种数据挖掘技术都有各自的特性以及使用步骤,因此针对不同问题需求所发展出的数据挖掘过程也存在差异,如数据的完整程度、专业人员的支持程度等都会对建立数据挖掘的过程有所影响(蔡维欣,2003);也因此造成了数据挖掘在不同领域之间整个规划流程上的差异。
即使是同一产业,也会因为不同的分析技术结合了不同程度的专业知识,而产生明显的差异。
所以,对于数据挖掘过程的系统化、标准化就显得格外重要,这样一来不仅可以较容易地实现跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正作用。
进行数据挖掘完整的步骤如下:
1)数据理解(Data Understanding)
2)获取相关知识与技术(Acquisition)
3)整合与查核数据(Integration and Checking)
4)清理错误或不一致的数据(Data Cleaning)
5)开发模型与假设(Model and Hypothesis Development)
6)实际数据挖掘工作(Data Mining)
7)测试模型并检验数据挖掘结果(Testing and Verification)
8)解释与使用模型(Interpretation and Use)
由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划过程,事实上许多专家都认为,整套数据挖掘的过程有80%的时间和精力是花费在数据整理阶段,其中包含数据的清理与格式转换甚至表格的连接。
由此可知,数据挖掘只是数据挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。