数据挖掘的任务是从数据中发现模式,模式按功能分为描述型挖掘和预测型挖掘。
描述型挖掘是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。它是刻画目标数据中数据的一般性质,概括数据中潜在的联系模式,以方便的形式呈现数据的重要特征。例如,在地球上,70%的表面被海洋覆盖,30%是陆地。描述型挖掘本质上是探查性的,经常涉及无监督和可视化方面的方式,不需要一些业务相关的先验知识,常需要后处理技术验证和解释结果。描述型挖掘一般有多个属性或变量,属性用于描述各个观测者的特征,可以发现彼此间的联系,涉及的算法有聚类分析和关联规则分析。
预测型挖掘是根据观察到的对象特征值来预测它的其他特征值,有明确的预测变量和相应的因变量,经常涉及有监督的方式。预测型挖掘是在当前数据上进行归纳,以便做出预测。被预测的属性一般称为目标变量或因变量,而用来做预测的属性则称为说明变量或自变量,如分类、关联模式、时间序列模式和回归模式等。例如,根据各种动物的资料,可以建立这样的模式:凡是胎生的动物都是哺乳类动物。当有新的动物资料时,就可以根据这个模式判别此动物是否是哺乳动物。