啤酒与尿布案例的关联分析

2020年11月10日09:48:56啤酒与尿布案例的关联分析已关闭评论

啤酒与尿布案例的关联分析

一个超市的销售系统记录了客户购物的情况。表7-7中记录了5位客户的购物清单。

啤酒与尿布案例的关联分析

表7-7 某超市5位客户的购物清单

超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持度≥40%(即在5行中,至少出现两次)的商品名称。知识发现数据库系统(Knowledge Discovery Database System, KDDS)透过特定算法(例如,著名的Apriori(验证)算法及或改进型算法)多次扫描数据库,依次得出表7-8和表7-9。

其中,支持度小于0.4的项目,如单项中的{面包}、{雨伞}和双项中的{尿布、牛奶}等已经略去,这3项统计为空,只有{啤酒,尿布,牛奶}出现了一次(表7-7中的3号记录),支持度小于40%的则略去。

啤酒与尿布案例的关联分析

表7-8 频繁单项集

啤酒与尿布案例的关联分析

表7-9 频繁双项集

由Apriori算法得出的知识可解释如下:从单项统计中看出,80%的客户买了啤酒,80%的客户买了尿布。从双项统计中看出,60%的客户同时买了啤酒和尿布,40%的客户买了啤酒和牛奶,40%的客户买了尿布和婴儿爽身粉。此外,还可观察到,在买了啤酒的客户中,又买了尿布的占0.6{啤酒,尿布}/0.8{啤酒}=75%。

于是可列出下列6条规则。

R1:啤酒→尿布, supp =60%, conf =0.6/0.8=75%。

R2:尿布→啤酒, supp =60%, conf =0.6/0.8=75%。

R3:牛奶→啤酒, supp =40%, conf =0.4/0.4=100%。

R4:啤酒→牛奶, supp =40%, conf =0.4/0.8=50%。

R5:尿布→婴儿爽身粉, supp =40%, conf =0.4/0.8=50%。

R6:婴儿爽身粉→尿布, supp =40%, conf =0.4/0.4=100%。

KDD规则反映了商品之间的表面关系,其不一定是现实世界的因果关系。规则是死的,人是活的,运用之妙,存乎一心。

例如,R6“婴儿爽身粉→尿布”有很高的信赖度,是相当合理而可以解释的,R3有很高的信赖度,将提示进一步的调查分析,而在本例中,是因为训练资料太少而引起失真所致。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。