- A+
描述型数据挖掘的功能:关联规则、序列模型和聚类分析
描述型数据挖掘的功能分为三大类,即关联规则、序列模型和聚类分析,主要用于寻找数据之间的关系。
1.关联规则
关联规则用于找出哪些事件常常会一起出现,这个功能的应用也比较普遍,一个著名的例子便是亚马逊。亚马逊是一家网上书店,客户在这个网站上购买书籍后,网站往往会向其推荐书籍。
例如,客户在亚马逊上准备购买两本书,该网站就会弹出“购买这本书的客户还购买了……”的链接,这种销售现象也被称作交叉销售,其中主要运用了数据挖掘中的关联规则,即找出客户与购买书籍之间的关联性并进行书籍推荐。
2.序列模型
序列模型用于找出哪些事件常常会循序出现,这个功能与关联规则十分类似,但区别在于其具有时间顺序,也就是事件之间的出现关系不是同时的,而是循序的。
序列模型也具有实用性。例如,在线下商场中,利用关联规则做商品推荐是相当困难的,因为商家只有在客户结账的时候,才知道他到底购买了哪些东西,此时再做商品推荐为时过晚。但是序列模型不同,它会告诉商家购买了某种商品的客户通常隔多久会购买另一种商品,商家可以利用序列模型进行商品推荐。
例如,通过数据挖掘,商家知道购买A商品的客户之后往往会购买C商品,购买B商品的客户之后往往会购买D商品。故当某一位客户购买了A商品和B商品后,在结账时,商家可以将C商品和D商品印在折价券上,从而进行商品推荐,增加客户购买C商品和D商品的概率。
3.聚类分析
聚类分析用于找出数据之间的内部结构,即数据不再是一个个分散的信息源,而是一个个的聚群,每个聚群都有自己的特点,这个功能在数据挖掘中的运用相当广泛。
例如,一家银行想要知道与其有业务往来的客户主要是哪些人群,往往会用到聚类分析这个功能。假设该银行想从年龄和收入两个层面来分析与其有业务往来的客户主要是哪些人群,如图4-1所示,其中一个圆点就代表一个客户,可以看出比较密集的客户群有3个,也就是说与该银行有业务往来的客户主要有3种类型,即收入低的中年人、收入高的中老年人,以及收入高的年轻人。
图4-1
此外,通过聚类分析还可以估计这3种客户在总体客户中所占的比例,从而可以根据不同类型客户的特点,向其推销不同的投资产品。例如,针对收入低的中年人,可以向其推销保险产品;针对收入高的中老年人,可以向其推销保本型投资产品;针对收入高的年轻人,可以向其推销高获利及高风险型投资产品。