第2,如果只是出现购买一词,则垃圾邮件概率为80%,正常邮件概率自然为1-80%==20% 第三部,如果出现购买发票俩个次,则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2% 很明显,如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。 第四步。。那么得...
使用贝叶斯算法原理进行垃圾邮件预测 一、数据准备:文件sms_spam.txt内容如下: type,text ham,you are having a good week. Just checking in 00 00 00 0089 0089 00890089 0089 0089 0089 008
表示15个词联合认定,这封邮件有90%以上的可能属于垃圾邮件;概率小于0.9,就表示是正常邮件。 有了这个公式以后,一封正常的信件即使出现sex这个词,也不会被认定为垃圾邮件了。 参考资料 贝叶斯推断及其互联网应用(二):过滤垃圾邮件- 阮一峰的网络日志.html Atitit贝叶斯算法的原理以及垃圾邮件分类的原理 作者::绰号:老...
第2,如果只是出现购买一词,则垃圾邮件概率为80%,正常邮件概率自然为1-80%==20% 第三部,如果出现购买发票俩个次,则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2% 很明显,如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。 第四步。。那么得...