支持度与置信度:什么意思、例子案例
支持度
支持度表示X和Y同时在总数据集中出现的概率。
图14-1所示的是顾客序号和顾客购买的商品。其中,顾客1000同时购买了商品A、B和C,顾客2000同时购买了商品A和C,顾客3000同时购买了商品A和D,顾客4000同时购买了商品B、E和F。
图14-1
有了顾客购买商品的数据后,就可以寻找商品之间的关联规则了。可以先假设一条规则:顾客购买商品A的同时会购买商品C,即“A→C”。那么这条规则的支持度即是商品A和C被同时购买的概率,这里共有4位顾客,同时购买商品A和C的顾客有两个人,所以规则的支持度为:
Support =Support({A, C}) = 50%
置信度
置信度表示在先决条件X发生的情况下,由关联规则“X→Y”推出发生Y的概率,即在含有X的集合中,含有Y的可能性。
在上面的例子中,顾客购买商品A的同时会购买商品C的置信度,即是顾客在购买商品A的情况下有多大的概率会购买商品C。由图14-1可知有3位顾客购买了商品A,其中又有两位顾客购买了商品C,所以规则的置信度为:
Confidence =Support({A, C})/Support({A}) = 66.6%
而关联规则若要成立,则需要满足最小支持度(Minimum Support)和最小置信度(Minimum Confidence)。假设关联规则的最小支持度和最小置信度均为50%。在本例中,规则“A→C”的支持度为50%,置信度为66.6%,满足要求,所以规则“A→C”是一条关联规则,即顾客在购买商品A的时候会购买商品C。
需要注意的是,规则“A→C”与规则“C→A”是不同的,两者的支持度相同,而在规则“C→A”中,购买商品C的顾客有两个人,这两个人全部都购买了商品A,所以规则“C→A”的置信度为100%。