数据挖掘的分类
数据挖掘涉及多个学科方向,主要包括数据库、统计学和机器学习等。
数据库技术经过20世纪80年代的大发展,除关系数据库外,又陆续出现了面向对象数据库、多媒体数据库、分布式数据库及Web数据库等。数据库的应用由一般查询到模糊查询和智能查询,数据库计算已趋向并行计算。从以上各类数据库中挖掘知识正在兴起并已得到迅速发展。
统计学是一门古老学科,现已逐渐走向社会。它已成为社会调查、了解民意及决策支持的重要手段。
机器学习是人工智能的重要分支。它是在专家系统获取知识出现“瓶颈”后发展起来的。机器学习的大部分方法和技术已演变为数据挖掘方法和技术。
数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术,以及应用等几方面进行分类。
1.按数据库关系类型分类
数据挖掘主要是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐步出现了不同数据库的数据挖掘。现在已有关系数据挖掘、模糊数据挖掘、历史数据挖掘和空间数据挖掘等多种不同数据库的数据挖掘类型。
2.按数据挖掘对象分类
数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒体数据挖掘和Web数据挖掘。由于对象不同,挖掘的方法相差很大。文本、多媒体和Web数据均是非结构化数据,挖掘的难度很大。目前Web数据挖掘已逐渐引起人们的关注。
3.按数据挖掘任务分类
数据挖掘的任务有关联分析、时序模式、聚类、分类、偏差检测和预测等。按任务分类有关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析挖掘和预测数据挖掘等类型。
各类数据挖掘由于任务不同,将会采用不同的数据挖掘方法和技术。
4.按数据挖掘方法和技术分类
● 归纳学习类:该类又分为基于信息论方法挖掘类和基于集合论方法挖掘类。基于信息论方法是在数据库中寻找信息量大的属性来建立属性的决策树。基于集合论方法是对数据库中各属性的元组集合之间的关系(如上、下近似关系,覆盖或排斥关系,以及包含关系等)来建立属性间的规则。该类中又包括多种方法,主要用于分类问题。
● 仿生物技术类:该类又分为神经网络方法类和遗传算法类。神经网络方法是在模拟人脑神经元而建立的MP数学模型和Hebb学习规则基础上,提出的一系列算法模型,用于识别、预测、联想、优化和聚类等实际问题。遗传算法是在模拟生物遗传过程,对选择、交卫和变异过程建立的数学算子,主要用于问题的优化和规则的生成。
● 公式发现类:在科学实验与工程数据库中,用人工智能方法寻找和发现连续属性(变量)之间的关系,建立变量之间的公式,已引起人们的关注,该类中有多种数据挖掘方法。
● 统计分析类:统计分析是一门独立学科,由于能对数据库中的数据求出各种不同的统计信息和知识,它也构成了数据挖掘中的一大类方法。
● 模糊数学类:模糊数学是反映人们思维的一种方式。将模糊数学应用于数据挖掘各项任务中,形成了模糊数据挖掘类。如模糊聚类、模糊分类和模糊关联规则等。
● 可视化技术类:可视化技术是一种图形显示技术。对数据的分布规律进行可视化显示或对数据挖掘过程进行可视化显示,会明显提高人们对数据挖掘的兴趣和挖掘效果。该技术已形成了可视化数据挖掘类的多种方法。