贝叶斯分类器(贝叶斯定理)典型应用:垃圾邮件识别

2020年1月3日14:55:09贝叶斯分类器(贝叶斯定理)典型应用:垃圾邮件识别已关闭评论

贝叶斯分类器的另一个典型应用是垃圾邮件识别。随着E-mail的普及,垃圾邮件也越来越猖獗。只要你的E-mail暴露于互联网上(比如用于账号注册),便会迅速成为垃圾邮件的重灾区。垃圾邮件往往精于包装,配有令人诱惑的图片、词汇或附件,其中隐藏着很大的风险,比如盗号木马和网上诈骗。E-mail用户厌恶垃圾邮件,但手动清理费时费力,还容易误点击,因此E-mail服务商很早就开始研究垃圾邮件的自动识别方法,最终他们选择贝叶斯分类器来识别垃圾邮件。

表7-5是一组垃圾邮件识别的基础数据,20封邮件中有10封是垃圾邮件,10封是普通邮件,用于判别的特征有三项——链接、图片和附件。第21封邮件没有链接,但有图片和附件,它是垃圾邮件的概率为多少?

贝叶斯分类器(贝叶斯定理)典型应用:垃圾邮件识别

表7-5 垃圾邮件识别的基础数据

与疾病诊断不同,本例有三个特征,这不会影响贝叶斯定理的使用,只是计算方式上略有不同。根据贝叶斯定理,可知:

P(垃圾邮件|无链接,有图,有附件)=P(无链接,有图,有附件|垃圾邮件)×P(垃圾邮件)/P(无链接,有图,有附件)

P(普通邮件|无链接,有图,有附件)=P(无链接,有图,有附件|普通邮件)×P(普通邮件)/P(无链接,有图,有附件)

因为我们已知:

P(垃圾邮件|无链接,有图,有附件)+P(普通邮件|无链接,有图,有附件)=1

因此我们只需要计算二者的比值,就可以计算出二者的数值。

先计算如下概率:

P1=P(垃圾邮件)=5/10

P2=P(普通邮件)=5/10

P3=P(无链接|垃圾邮件)=3/10

P4=P(无链接|普通邮件)=7/10

P5=P(有图|垃圾邮件)=5/10

P6=P(有图|普通邮件)=4/10

P7=P(有附件|垃圾邮件)=3/10

P8=P(有附件|普通邮件)=3/10

再计算所求两个概率的比值:

P(垃圾邮件|无链接,有图,有附件)/P(普通邮件|无链接,有图,有附件)=P(无链接,有图,有附件|垃圾邮件)·P(垃圾邮件)÷P(无链接,有图,有附件|普通邮件)·P(普通邮件)=P1·P3·P5·P7/(P2·P4·P6·P8)=15/28

因此,P(垃圾邮件|无链接,有图,有附件)=15/43=35%

也就是说,一封无链接、有图、有附件的邮件是垃圾邮件的概率是35%,是普通邮件的概率是65%。

最后需要说明的是,朴素贝叶斯分类器包含一个关键假设:各个特征互相独立。这个假设在大多数实际问题中都是成立的,但是我们不能因此忽略这个假设。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。