数据挖掘方法论:CRISP-DM
CRISP-DM,Cross Industry Standard Process of Data Mining,被称为跨产业的数据挖掘标准流程,即无论什么产业,其数据挖掘的方法论都是一样的。CRISP-DM方法论将数据挖掘过程分为6个阶段,分别是商业理解、数据理解、数据预处理、建模、评估和实施,如图2-1所示。在具体的操作过程中,用户可以根据自身的需求调整各个阶段的顺序。
商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是定题目,即通过数据挖掘想要解决什么问题。
数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解这一步。
数据预处理:对收集到的数据进行处理,此阶段耗时最长。
建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。
评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解这一步,重新开始。
实施:模型的实际应用。