统计学与大数据的关系:统计学在大数据领域的作用
统计学是一门基于数据的科学,是一种研究数据搜集、整理、分析与应用的方式和方法。数据是严谨的、枯燥的、冷冰冰的,同时,正确的数据又是丰富的、客观的、忠实的、从不会欺骗人的。
在当今的信息时代,数据是信息的载体,是统计学分析的对象。统计工作本身就是对数据进行搜集、整理、分析、解释这样一个系统的过程。离开了数据,统计学就失去了研究的意义和价值。同理,离开了统计学,数据就只是单纯的数据而已,几乎没有价值。通过统计的方法和原理整理及分析出来的数据,在精确度和适用度方面才会有较高的提升,才会实现数据的真正价值。
大数据的分析与挖掘等工作,从数据预处理开始,至建模得出结论,无不存在着统计学的身影。比如,统计分析所提供的诸如方差分析、假设检验、相关性分析等方法,都有助于数据分析前期的数据探索、数据预处理、特征工程等操作;朴素贝叶斯、Apriori关联规则等算法本身的理论基础就来源于统计学。拥有扎实的统计基础,能够更加深入地理解算法,并解释结果。此外,在得出分析结果以后,研究者还需要通过统计分析来描述结果,以方便其他人理解。