什么是SAS数据挖掘
所谓的数据挖掘,是指通过对大量的数据进行选择、探索与建模,来揭示包含在数据中以前不为人知的模式或规律,从而为商业活动或科学研究提供帮助和服务。
数据挖掘中有以下两个重要的类别:
·有监督分析(SupervisedAnalysis)
·无监督分析(Unsupervised Analysis)
有监督分析一般涉及一个或者多个目标变量。因此,有监督分析属于目标导向(Goal Directed)型分析。常见的有监督分析包括判别分析以及预测等,往往是根据分好类的历史数据来进行建模的。建模之后,根据初始模型的结果,结合历史数据,对初始模型进行调整、改进,从而得到新的模型。一般来说,这个过程不是一步完成的,是一个反复的过程。
相反,无监督分析往往没有明确的目标变量。因此,无监督分析也称数据驱动分析(Data Driven)。在某些情形下,甚至没有分析结果好坏的评判标准。例如,某电信公司希望了解其手机用户的特征,例如是否打国际长途、是否经常进行国内长途通话、每次通话的时间长度等。在研究这些特征后,我们可以将手机用户分成若干组,但是分类方法是否合理、是否存在更好的方法,还需要根据业务的实际情况进行进一步考察,这就属于无监督分析的范畴。
数据挖掘的应用日益广泛。例如,在商业应用中,现在几乎每一个银行都有信用评分系统对信用卡的发放或信用额度的申请进行管理,并且大部分银行拥有自己的反欺诈系统,用于发现和预防恶意的欺诈行为。在社会管理中,对犯罪活动的有效识别和预警、各种因素对环境影响的判定和度量等都是数据挖掘的例子。