贝叶斯分类器（贝叶斯定理）典型应用：垃圾邮件识别

2020年1月3日14:55:09已关闭评论

贝叶斯分类器的另一个典型应用是垃圾邮件识别。随着E-mail的普及，垃圾邮件也越来越猖獗。只要你的E-mail暴露于互联网上（比如用于账号注册），便会迅速成为垃圾邮件的重灾区。垃圾邮件往往精于包装，配有令人诱惑的图片、词汇或附件，其中隐藏着很大的风险，比如盗号木马和网上诈骗。E-mail用户厌恶垃圾邮件，但手动清理费时费力，还容易误点击，因此E-mail服务商很早就开始研究垃圾邮件的自动识别方法，最终他们选择贝叶斯分类器来识别垃圾邮件。

表7-5是一组垃圾邮件识别的基础数据，20封邮件中有10封是垃圾邮件，10封是普通邮件，用于判别的特征有三项——链接、图片和附件。第21封邮件没有链接，但有图片和附件，它是垃圾邮件的概率为多少？

表7-5　垃圾邮件识别的基础数据

与疾病诊断不同，本例有三个特征，这不会影响贝叶斯定理的使用，只是计算方式上略有不同。根据贝叶斯定理，可知：

P（垃圾邮件|无链接，有图，有附件）=P（无链接，有图，有附件|垃圾邮件）×P（垃圾邮件）/P（无链接，有图，有附件）

P（普通邮件|无链接，有图，有附件）=P（无链接，有图，有附件|普通邮件）×P（普通邮件）/P（无链接，有图，有附件）

因为我们已知：

P（垃圾邮件|无链接，有图，有附件）+P（普通邮件|无链接，有图，有附件）=1

因此我们只需要计算二者的比值，就可以计算出二者的数值。

先计算如下概率：

P1=P（垃圾邮件）=5/10

P2=P（普通邮件）=5/10

P3=P（无链接|垃圾邮件）=3/10

P4=P（无链接|普通邮件）=7/10

P5=P（有图|垃圾邮件）=5/10

P6=P（有图|普通邮件）=4/10

P7=P（有附件|垃圾邮件）=3/10

P8=P（有附件|普通邮件）=3/10

再计算所求两个概率的比值：

P（垃圾邮件|无链接，有图，有附件）/P（普通邮件|无链接，有图，有附件）=P（无链接，有图，有附件|垃圾邮件）·P（垃圾邮件）÷P（无链接，有图，有附件|普通邮件）·P（普通邮件）=P1·P3·P5·P7/（P2·P4·P6·P8）=15/28

因此，P（垃圾邮件|无链接，有图，有附件）=15/43=35%

也就是说，一封无链接、有图、有附件的邮件是垃圾邮件的概率是35%，是普通邮件的概率是65%。

最后需要说明的是，朴素贝叶斯分类器包含一个关键假设：各个特征互相独立。这个假设在大多数实际问题中都是成立的，但是我们不能因此忽略这个假设。

版权声明：本篇文章（包括图片）来自网络，由程序自动采集，著作权（版权）归原作者所有，如有侵权联系我们删除，联系方式（QQ：452038415）。

文章目录
繁