数据挖掘方法论:SEMMA
SEMMA表示Sample,Explore,Modify,Model和Assess。
SEMMA是由 SAS Institute开发的连续步骤清单。SAS Institute是统计和商业智能软件的最大生产商之一。它指导数据挖掘应用程序的实现。
尽管SEMMA通常被认为是一种通用的数据挖掘方法,但SAS声称SEMMA更像是一套逻辑组织功能组件,用来执行数据挖掘的核心任务。
SEMMA和相关任务的阶段如下:
采样(Sample):该过程从数据采样开始,比如,选择用于建模的数据集。数据集要足够大,以包含足够的信息来检索。但数据集又需要足够小,以便有效地使用。这一阶段还涉及数据分区。
探索(Explore):这一阶段在数据可视化的帮助下,发现变量之间预料到的和未预料到的关系,以及异常情况,以此来理解数据。
修改(Modify):修改阶段包含了用于选择、创建和转换变量以准备数据建模的方法。
建模(Model):在建模阶段,重点是在准备变量上应用各种建模(数据挖掘)技术,以创建可能提供所需结果的模型。
评估(Assess):最后一个阶段是评估。建模结果的评估显示了所创建模型的可靠性和实用性。