统计学与数据挖掘的关系

2020年9月21日20:31:42统计学与数据挖掘的关系已关闭评论

统计学与数据挖掘的关系

有很多人认为数据挖掘是统计学的分支,其功能的实现是统计学方法和技术应用的结果;也有人认为统计学和数据挖掘有着本质的区别,统计学的方法和技术根本无法实现数据挖掘的功能。笔者认为这两种观点都略显极端,极力找出统计学与数据挖掘的本质区别或者抛开计算机技术和其他工具方法的数据挖掘都不是真正的数据挖掘,甚至可以说是毫无意义的。

20世纪90年代,数据仓库技术诞生,在数据库的基础上应用机器学习和统计分析相结合的方法处理数据。这种结合促成了数据挖掘(Data Mining,DM)技术的诞生。由于数据挖掘与统计学都试图从数据中发现某种结构,从而得到有价值的信息,所以数据挖掘从诞生时起,就与统计学有了不可分割的联系。统计学、数据库和人工智能共同构成数据挖掘技术的三大支柱。统计学是搜集、展示、分析以及解释数据的科学,统计学并不是方法的罗列,而是处理数据的科学。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先不为人们所知的、潜在有用的信息和知识的过程。数据挖掘大部分核心功能的实现都以计量和统计分析方法作为支撑。

数据挖掘本身是多学科交叉科学,应用了统计学、计算机、数据仓库、神经网络等多种技术。现实世界中的数据是纷繁复杂的,如果将这些数据直接应用到数据挖掘当中,未必能产生良好的效果。对于企业数据库中的现有数据,尤其是复杂数据,需要经过专门的统计处理,再应用于数据挖掘,才能更加有效。尽管统计学与数据挖掘有诸多区别,统计思想在数据挖掘整个系统中的各个阶段都担负着不可忽视的重任。统计学对于数据挖掘方法创新做出了重大贡献,如概率分析网(PLN);统计思想在数据挖掘学习方法上的贡献,即贝叶斯网络;统计在遗传算法中的应用,即概率进化算法(PMEA)。在数据挖掘的整个过程中,统计学起着至关重要的作用,用统计学方法开发的工具可用于数据的抽取、清洗、转换、整合等方面,统计逻辑推理还可以使数据分析员站在更高层次上,以更广阔的视角进行数据的模式识别。

从国际数据挖掘技术的发展趋势来看,数据挖掘研究的重点转向系统应用和方法创新,着眼于多种发现策略和技术的集成,注重多种学科之间的相互渗透,数据挖掘技术迫切需要系统、科学的理论体系作为其发展的有力支撑。最近,由经验统计方法和人工智能相结合而产生的衍生技术,如分类回归树(Classification And Regression Tree,CART)、卡方自动交互探测法(Chi Square Automatic Interaction Detector,CHAID)等前沿方法,以算法的形式展示了统计和信息技术结合发展的新方向。这些都预示着数据挖掘技术与统计学的集成已成为必然的趋势。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。