数据挖掘的过程:SAS公司的SEMMA方法论
针对数据挖掘过程中直接与数据相关的部分,SAS公司提出了SEMMA方法论,将数据挖掘的核心过程分为抽样(Sample)、探索(Explore)、修整(Modify)、建模(Model)、评估(Assess)几个阶段。
1. 抽样
从数据集中抽取具有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。创建三个数据子集:
(1)训练数据,用于拟合各模型;
(2)验证数据,用于评估各模型并进行模型选择,避免过度拟合;
(3)测试数据,用于对模型的普适性形成真实的评价。
我们不能根据对训练数据集的拟合效果来进行模型选择。
举例来说,如果有100个训练数据点用于拟合因变量 y 和自变量 x 之间的关系,使用 x 的99次多项式能够完美拟合这100个点,但是这个多项式模型不仅拟合了 y 与 x 之间系统的关系,也拟合了训练数据集的噪音,我们称这种现象为过度拟合。因为不同数据的噪音是不同的,所以这样的模型无法推广到新的数据。因此,我们需要使用验证数据集来比较各模型并进行选择。
类似地,因为在这种选择过程中不仅使用了验证数据集中因变量和自变量之间系统的关系,也使用了其中的噪音,所以使用验证数据集无法对被选择模型的效果进行客观评价。因此,我们需要使用第三个数据集——测试数据集来评价模型。
2. 探索
使用可视化方法或主成分分析、因子分析、聚类等统计方法对数据进行探索性分析,发现未曾预料的趋势和异常情况,对数据形成初步理解,寻求进一步分析的思路。
3. 修整
包括生成和转换变量、发现异常值、变量选择等。
4. 建模
搜寻能够可靠地预测因变量的数据组合,具体而言是指采用哪些观测、使用哪些自变量能够可靠地预测因变量。
5. 评估
评估模型的实用性、可靠性和效果。