《机器学习实战》笔记之朴素贝叶斯

小猪猪de孤独 · 发表于 2016-1-22 18:47:36

本帖最后由小猪猪de孤独于 2016-1-22 20:45 编辑

原理：

假如邮箱中有n个单词，

如果returnVec=0代表这个单词在这封邮件中不出现，returnVec=1代表这个单词在邮件中出现了。

设训练集中每个邮件都有标记为是垃圾邮件和不是垃圾邮件，是垃圾邮件的分类为1，不是垃圾邮件的分类为0。

算法原理：

提取邮件内单词，改写为小写单词输入字典，过滤长度不大于2的单词。

利用词汇表计算出单词属于正常词汇的概率：

p0V=（正常邮件中该单词出现次数）/（正常邮件数量）。

辱骂性词汇的概率：

p1V=（垃圾邮件中该单词出现次数）/（垃圾邮件数量）。

然后比较p0V和p1V的概率大小，如果p0V大于p1V就认为他属于正常邮件，如果p1V大于p0V就认为他属于垃圾邮件。

pb为（对应类别的邮件数）/（所有邮件总数）。

文章中的改进：设定初始一行的单词数计数为2，是为了防止下溢，避免因为某个特性下概率为0。计算概率使用了log函数简化乘除法。

对原文章中的代码进行些许改进，添加了中文注释，加入了主函数，能够直接运行出结果。因为能力有限，有部分可能解释不清，希望大牛批评指正！

运行时，注意python的版本，要注意修改代码。要安装numpy才能正常运行，案例中邮箱，可以去机器学习实战官网下载注意改名。也可以下载附件。

以下是运行结果：

屏幕快照 2016-01-16 22.09.49.png (153.96 KB, 下载次数: 527)

下载附件

2016-1-22 18:45 上传

屏幕快照 2016-01-16 22.09.03.png (148.72 KB, 下载次数: 533)

下载附件

2016-1-22 18:45 上传

Captainzhang · 发表于 2016-11-7 21:29:58

谢谢楼主

		自动登录	找回密码
密码			立即注册

站长推荐 /1