什么是关联规则:关联规则的内涵
关联规则(Association):揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。
关联分析的任务就是发现事物间的关联规则或称相关程度。关联规则的一般形式是:
如果A发生,则B有百分之C的可能发生。C称为关联规则的置信度(Confidence)。利用关联分析能寻找数据库中大量数据的相关联系,常用的两种技术为:
关联规则,用于发现一个事物与其他事物间的相互关联性或相互依赖性,如分析客户在超市买牙刷的同时又买牙膏的可能性。
序列模式分析,将重点放在分析数据之间的前后因果关系,如买了电脑的顾客会在三个月内买杀毒软件。
相信大家都听说过“尿布与啤酒”的故事。在某超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。