关联分析中最有名的案例是“啤酒与尿布”的故事,沃尔玛超市的“啤酒与尿布”案例正式刊登在1998年的《哈佛商业评论》上面。
该故事发生在20世纪90年代的美国沃尔玛超市,沃尔玛超市的管理人员分析销售数据时发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”这两种看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意。经过后续调查发现,这种现象通常出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去毫不相干的商品经常会被同时购买的现象。如果这个年轻的父亲在卖场只能买到两种商品之一,则他很有可能会放弃到本商店购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛超市发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;沃尔玛超市也从中获得了很好的商品销售收入。将关联度高的商品放在一起促销或者捆绑消费可以提高营业额,同时电商平台也可以捆绑推荐提高成交量。当商品非常多,人工已经无法分析出众多商品的关联性时,就需要计算机的辅助了。在当今互联网时代,关联分析已经成为一种常用的挖掘算法,其逻辑简单、功能强大,被广泛应用于如下场景。
1)产品推荐与引导。根据购买记录,通过关联分析发现群体购买习惯的内在共性,指导超市产品摆放。对于偏个性化场景,如给目标用户推荐产品,可以先找出购买习惯与目标用户相似的人群,对此特定人群的购买记录进行关联分析,然后将分析出的规则与目标用户的购买记录结合,进行推荐。
2)特征筛选。在特征工程中,需要对特征进行筛选。对特征筛选包括保留与目标变量关联大的特征,删除高度相关的特征。在一般使用的相关性系数方法中,只能判断两个变量间的相关性,而通过关联分析得到的规则,可以判断多个变量之间的关系。比如针对规则{ x 1 , x 2 }⇒{ x 3 },则可能存在 x 3 不能与{ x 1 , x 2 }同时放入模型中的可能性;针对规则{ x 4 , x 5 }⇒{ y 1 },则将 x 4 和 x 5 同时放入模型时会有较好的结果。