Apriori算法实现的两个过程:连接步与剪枝步
1)找出所有的频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过程中连接步和剪枝步互相融合,最终得到最大频繁项集L k 。
连接步:
连接步的目的是找到K项集。对给定的最小支持度阈值,分别对1项候选集C 1 ,剔除小于该阈值的项集得到1项频繁集L 1 ;下一步由L 1 自身连接产生2项候选集C 2 ,保留C 2 中满足约束条件的项集得到2项频繁集,记为L 2 ;再下一步由L 2 与L 3 连接产生3项候选集C 3 ,保留C 2 中满足约束条件的项集得到3项频繁集,记为L 3 ……这样循环下去,得到最大频繁项集L k 。
剪枝步:
剪枝步紧接着连接步,在产生候选项C k 的过程中起到减小搜索空间的目的。由于C k 是L k-1 与L 1 连接产生的,根据Apriori的性质频繁项集的所有非空子集也必须是频繁项集,所以不满足该性质的项集不会存在于C k 中,该过程就是剪枝。
2)由频繁项集产生强关联规则:由过程1)可知未超过预定的最小支持度阈值的项集已被剔除,如果剩下这些规则又满足了预定的最小置信度阈值,那么就挖掘出了强关联规则。