什么是探索性数据分析(Exploratory Data Analysis,EDA)?

2023年2月21日13:30:52什么是探索性数据分析(Exploratory Data Analysis,EDA)?已关闭评论

探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在20世纪70年代由美国统计学家J.K. Tukey提出。

传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,导致数据分析结果不理想。探索性数据分析则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过探索性数据分析可以真实、直接地观察到数据的结构和特征。

探索性数据分析出现之后,数据分析的过程就分为两个阶段:探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型,很多机器学习算法(分为训练和测试两步)都遵循这种思想。

当拿到一份数据时,如果做数据分析的目的不是非常明确、有针对性,可能会感到有些茫然,那么此刻就更加有必要进行探索性数据分析了,它能帮助我们初步了解数据的结构和特征,甚至发现一些模式或模型,再结合行业背景知识,也许就能直接得到一些有用的结论。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。