一、数据关联分析的基本概念
数据关联分析(Data Association Analysis)又称数据关联挖掘,是数据挖掘(Data Mining)中一项基础又重要的方法,旨在挖掘隐藏在数据间的相互关系,即通过对给定的一组项目和一个记录集的分析,得出项目集中项目之间的相关性。其包括两个方面,即关联规则分析(Association Rules Analysis)与序列模式分析(Sequence Pattern Analysis)。
关联规则分析用于寻找数据集中各项之间的关联关系。例如,某条关联规则为牛奶⇒面包(支持度:30%,置信度:60%),支持度30%表明30%的顾客会同时购买牛奶和面包,置信度60%则表明购买牛奶的顾客中有60%也会购买面包。关联分析对商业决策具有重要的价值,常用于实体商店或电商的跨品类推荐、购物车联合营销、货架布局陈列等,以达到关联项销量互相提升、改善用户体验、减少上货员与用户的投入时间、寻找高潜力用户的目的。
序列模式分析则侧重于分析数据间的前后序列关系,发现某一时间段内数据的相关处理,预测将来可能出现值的分布。这是由于大型连锁超市的交易数据不仅包含用户ID及事务涉及的项目,还记录着每条事务发生的时间。如果能在其中挖掘涉及事务之间关联关系的模式,即用户几次购买行为间的联系,就可以采取更有针对性的营销措施。例如,某条序列模式为牛奶⇒面包(支持度:50%),其表明50%的顾客在买过牛奶之后会购买面包。
二、关联分析的分类
关联分析可以分为以下几种类型。
(1)按照规则中处理的变量类型,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的是离散的、种类化的值,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如,(性别=“女”)⇒(职业=“秘书”)是布尔型关联规则;(性别=“女”)⇒(平均收入=2300)涉及的收入是数值类型,所以是一个数值型关联规则。
(2)按照规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的。而在多层的关联规则中,对数据的多层性进行了充分的考虑。例如,(IBM台式机)⇒(Sony打印机)是一个细节数据上的单层关联规则,而(台式机)⇒(Sony打印机)是一个较高层次和细节层次之间的多层关联规则。
(3)按照规则中涉及数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,只涉及数据的一个维度,而在多维的关联规则中,要处理的数据将会涉及多个维度,即单维关联规则处理单个属性中的一些关系,多维关联规则处理多个属性之间的某些关系。例如,对于啤酒⇒尿布,这条规则只涉及用户购买的物品这一个维度;对于(性别=“女”)⇒(职业=“秘书”),这条规则涉及两个字段的信息,是两个维度上的一条关联规则。