数据挖掘平台(TipDM)的产品功能
TipDM以智能预测技术为核心,并提供开放的应用接口。TipDM的底层算法,主要基于MATLAB、R、WEKA、Mahout等通过封装形成,所以建模输出结果与这几个工具的输出类同。使用过程中,用户也可以嵌入自己开发的其他任何算法。
TipDM平台提供的数据探索及预处理算法
数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。
TipDM平台提供的分类与回归算法
分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述。用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
TipDM平台提供的时序模式算法
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未知的值,但这些数据的区别是变量所处时间的不同。
TipDM平台提供的聚类分析算法
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
TipDM平台提供的关联规则算法
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
TipDM平台提供的关联分析算法主要有:
HotSpot关联规则
Apriori关联规则
FP-Tree关联规则
灰色关联法