CRISP-DM模型的六个阶段
CRISP-DM(CRoss-Industry Standard Process for Data Mining,数据挖掘的跨行业标准过程)是由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(http://www.crisp-dm.org)。它将数据挖掘分为以下六个阶段:
1. 业务理解
从业务的角度理解项目实施的目的和要求,将这种理解转化为一个数据挖掘问题,并设计能达成目标的初步方案。
2. 数据理解
收集原始数据,熟悉它们,考察数据的质量问题,对数据形成初步的洞见。
3. 数据准备
从原始数据中构造用于建模的最终数据集,构造过程中包含观测选择和变量选择、数据转换和清理等多种活动。
4. 建模
选择并应用多种建模方法,优化各种模型。
5. 模型评估
全面评估模型,回顾建立模型的各个步骤,确保模型与业务目标一致,并决定如何使用模型的结果。
6. 模型发布
以客户友好的方式组织并呈现从数据挖掘中所获取的知识。这一阶段经常会在组织的决策过程中灵活地应用模型。例如,在建立了预测贷款企业违约率的模型后,模型发布形式可以如下:信贷员在前台输入一个贷款企业的各种信息,后台使用模型预测违约概率后直接反馈给前台,帮助信贷员决定是否给该企业贷款。
