- A+
贝叶斯分类器的另一个典型应用是垃圾邮件识别。随着E-mail的普及,垃圾邮件也越来越猖獗。只要你的E-mail暴露于互联网上(比如用于账号注册),便会迅速成为垃圾邮件的重灾区。垃圾邮件往往精于包装,配有令人诱惑的图片、词汇或附件,其中隐藏着很大的风险,比如盗号木马和网上诈骗。E-mail用户厌恶垃圾邮件,但手动清理费时费力,还容易误点击,因此E-mail服务商很早就开始研究垃圾邮件的自动识别方法,最终他们选择贝叶斯分类器来识别垃圾邮件。
表7-5是一组垃圾邮件识别的基础数据,20封邮件中有10封是垃圾邮件,10封是普通邮件,用于判别的特征有三项——链接、图片和附件。第21封邮件没有链接,但有图片和附件,它是垃圾邮件的概率为多少?
表7-5 垃圾邮件识别的基础数据
与疾病诊断不同,本例有三个特征,这不会影响贝叶斯定理的使用,只是计算方式上略有不同。根据贝叶斯定理,可知:
P(垃圾邮件|无链接,有图,有附件)=P(无链接,有图,有附件|垃圾邮件)×P(垃圾邮件)/P(无链接,有图,有附件)
P(普通邮件|无链接,有图,有附件)=P(无链接,有图,有附件|普通邮件)×P(普通邮件)/P(无链接,有图,有附件)
因为我们已知:
P(垃圾邮件|无链接,有图,有附件)+P(普通邮件|无链接,有图,有附件)=1
因此我们只需要计算二者的比值,就可以计算出二者的数值。
先计算如下概率:
P1=P(垃圾邮件)=5/10
P2=P(普通邮件)=5/10
P3=P(无链接|垃圾邮件)=3/10
P4=P(无链接|普通邮件)=7/10
P5=P(有图|垃圾邮件)=5/10
P6=P(有图|普通邮件)=4/10
P7=P(有附件|垃圾邮件)=3/10
P8=P(有附件|普通邮件)=3/10
再计算所求两个概率的比值:
P(垃圾邮件|无链接,有图,有附件)/P(普通邮件|无链接,有图,有附件)=P(无链接,有图,有附件|垃圾邮件)·P(垃圾邮件)÷P(无链接,有图,有附件|普通邮件)·P(普通邮件)=P1·P3·P5·P7/(P2·P4·P6·P8)=15/28
因此,P(垃圾邮件|无链接,有图,有附件)=15/43=35%
也就是说,一封无链接、有图、有附件的邮件是垃圾邮件的概率是35%,是普通邮件的概率是65%。
最后需要说明的是,朴素贝叶斯分类器包含一个关键假设:各个特征互相独立。这个假设在大多数实际问题中都是成立的,但是我们不能因此忽略这个假设。