数据挖掘和统计学的关系
数据挖掘并不是对统计学的代替。实际上,统计学是对数据挖掘的很好的补充。经典的统计学技术,如回归与数据挖掘技术、神经网络一起应用。统计学也可用于验证数据挖掘结论。
显然,统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其他领域的思想、工具和方法,尤其是计算机学科,如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承的学科,如计算机科学及相关学科也是如此。数据集的规模常常意味着传统的统计学准则不适合数据挖掘问题,不得不重新设计。当数据点被逐一应用以更新估计量,适应性和连续性的准则常常是必需的。尽管一些统计学的准则已经得到发展,但更多的应用是机器学习(正如“学习”所示的那样)。
另外,统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。例如,银行事务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。类似的问题发生在总体随时间变化的情形。研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。
