贝叶斯推断及其互联网应用（二）：过滤垃圾邮件

上一次，我介绍了贝叶斯推断的原理，今天讲如何将它用于垃圾邮件过滤。

========================================

贝叶斯推断及其互联网应用

作者：阮一峰

（接上文）

七、什么是贝叶斯过滤器？

垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。

正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语；后者则是计算邮件文本的校验码，再与已知的垃圾邮件进行对比。它们的识别效果都不理想，而且很容易规避。

2002年，Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说，这样做的效果，好得不可思议。1000封垃圾邮件可以过滤掉995封，且没有一个误判。

另外，这种过滤器还具有自我学习的功能，会根据新收到的邮件，不断调整。收到的垃圾邮件越多，它的准确率就越高。

八、建立历史资料库

贝叶斯过滤器是一种统计学过滤器，建立在已有的统计结果之上。所以，我们必须预先提供两组已经识别好的邮件，一组是正常邮件，另一组是垃圾邮件。

我们用这两组邮件，对过滤器进行"训练"。这两组邮件的规模越大，训练效果就越好。Paul Graham使用的邮件规模，是正常邮件和垃圾邮件各4000封。

"训练"过程很简单。首先，解析所有邮件，提取每一个词。然后，计算每个词语在正常邮件和垃圾邮件中的出现频率。比如，我们假定"sex"这个词，在4000封垃圾邮件中，有200封包含这个词，那么它的出现频率就是5%；而在4000封正常邮件中，只有2封包含这个词，那么出现频率就是0.05%。（【注释】如果某个词只出现在垃圾邮件中，Paul Graham就假定，它在正常邮件的出现频率是1%，反之亦然。这样做是为了避免概率为0。随着邮件数量的增加，计算结果会自动调整。）

有了这个初步的统计结果，过滤器就可以投入使用了。

九、贝叶斯过滤器的使用过程

现在，我们收到了一封新邮件。在未经统计分析之前，我们假定它是垃圾邮件的概率为50%。（【注释】有研究表明，用户收到的电子邮件中，80%是垃圾邮件。但是，这里仍然假定垃圾邮件的"先验概率"为50%。）

我们用S表示垃圾邮件（spam），H表示正常邮件（healthy）。因此，P(S)和P(H)的先验概率，都是50%。

然后，对这封邮件进行解析，发现其中包含了sex这个词，请问这封邮件属于垃圾邮件的概率有多高？

我们用W表示"sex"这个词，那么问题就变成了如何计算P(S|W)的值，即在某个词语（W）已经存在的条件下，垃圾邮件（S）的概率有多大。

根据条件概率公式，马上可以写出

公式中，P(W|S)和P(W|H)的含义是，这个词语在垃圾邮件和正常邮件中，分别出现的概率。这两个值可以从历史资料库中得到，对sex这个词来说，上文假定它们分别等于5%和0.05%。另外，P(S)和P(H)的值，前面说过都等于50%。所以，马上可以计算P(S|W)的值：

因此，这封新邮件是垃圾邮件的概率等于99%。这说明，sex这个词的推断能力很强，将50%的"先验概率"一下子提高到了99%的"后验概率"。

十、联合概率的计算

做完上面一步，请问我们能否得出结论，这封新邮件就是垃圾邮件？

回答是不能。因为一封邮件包含很多词语，一些词语（比如sex）说这是垃圾邮件，另一些说这不是。你怎么知道以哪个词为准？

Paul Graham的做法是，选出这封信中P(S|W)最高的15个词，计算它们的联合概率。（【注释】如果有的词是第一次出现，无法计算P(S|W)，Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语，所以如果你从来没见过某个词，它多半是一个正常的词。）

所谓联合概率，就是指在多个事件发生的情况下，另一个事件发生概率有多大。比如，已知W1和W2是两个不同的词语，它们都出现在某封电子邮件之中，那么这封邮件是垃圾邮件的概率，就是联合概率。

在已知W1和W2的情况下，无非就是两种结果：垃圾邮件（事件E1）或正常邮件（事件E2）。

其中，W1、W2和垃圾邮件的概率分别如下：

如果假定所有事件都是独立事件（【注释】严格地说，这个假定不成立，但是这里可以忽略），那么就可以计算P(E1)和P(E2)：

又由于在W1和W2已经发生的情况下，垃圾邮件的概率等于下面的式子：

将P(S)等于0.5代入，得到

将P(S|W1)记为P1，P(S|W2)记为P2，公式就变成

这就是联合概率的计算公式。如果你不是很理解，点击这里查看更多的解释。

十一、最终的计算公式

将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：

一封邮件是不是垃圾邮件，就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。

有了这个公式以后，一封正常的信件即使出现sex这个词，也不会被认定为垃圾邮件了。

（完）

时间： 2024-09-29 03:16:48

贝叶斯推断及其互联网应用（二）：过滤垃圾邮件的相关文章

贝叶斯推断及其互联网应用（二）过滤垃圾邮件

上一次,我介绍了贝叶斯推断的原理,今天讲如何将它用于垃圾邮件过滤. ======================================== 贝叶斯推断及其互联网应用作者:阮一峰 (接上文) 七.什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户. 正确识别垃圾邮件的技术难度非常大.传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等.前者的过滤依据是特定的词语:后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比.它们的

贝叶斯推断及其互联网应用（一）：定理简介

一年前的这个时候,我正在翻译Paul Graham的<黑客与画家>. 那本书的第八章,写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件(英文版). 我没完全看懂那一章.当时是硬着头皮,按照字面意思把它译出来的.虽然译文质量还可以,但是心里很不舒服,下决心一定要搞懂它. 一年过去了,我读了一些概率论文献,逐渐发现贝叶斯推断并不难.原理的部分相当容易理解,不需要用到高等数学. 下面就是我的学习笔记.需要声明的是,我并不是这方面的专家,数学其实是我的弱项.欢迎大家提出宝贵意见,让我们

贝叶斯推断及其互联网应用（一）定理简介

一年前的这个时候,我正在翻译Paul Graham的<黑客与画家>. 那本书的第八章,写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件(英文版). 我没完全看懂那一章.当时是硬着头皮,按照字面意思把它译出来的.虽然译文质量还可以,但是心里很不舒服,下决心一定要搞懂它. 一年过去了,我读了一些概率论文献,逐渐发现贝叶斯推断并不难.原理的部分相当容易理解,不需要用到高等数学. 下面就是我的学习笔记.需要声明的是,我并不是这方面的专家,数学其实是我的弱项.欢迎大家提出宝贵意见,让我们

贝叶斯推断及其互联网应用（三）：拼写检查

(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分.) 使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法. 比如,你不小心输入了seperate. Google告诉你,这个词是不存在的,正确的拼法是separate. 这就叫做"拼写检查"(spelling corrector).有好几种方法可以实现这个功能,Google使用的是基于贝叶斯推断的统计学方法.这种方法的特点就是快,很短的时间内处理大量文本,并且有很高的精确度(90%以上).

贝叶斯推断及其互联网应用（三）拼写检查

(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分.) 使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法. 比如,你不小心输入了seperate. Google告诉你,这个词是不存在的,正确的拼法是separate. 这就叫做"拼写检查"(spelling corrector).有好几种方法可以实现这个功能,Google使用的是基于贝叶斯推断的统计学方法.这种方法的特点就是快,很短的时间内处理大量文本,并且有很高的精确度(90%以上).

浅谈贝叶斯推断

一.什么是贝叶斯推断贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质.它是贝叶斯定理(Bayes' theorem)的应用.英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理. 贝叶斯推断与其他统计学推断方法截然不同.它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正.正是因为它的主观性太强,曾经遭到许多统计学家的诟病. 贝叶斯推断需要大量的计算,因此历史

《贝叶斯方法：概率编程与贝叶斯推断》——导读

前言贝叶斯方法:概率编程与贝叶斯推断贝叶斯方法是一种常用的推断方法,然而对读者来说它通常隐藏在乏味的数学分析章节背后.关于贝叶斯推断的书通常包含两到三章关于概率论的内容,然后才会阐述什么是贝叶斯推断.不幸的是,由于大多数贝叶斯模型在数学上难以处理,这些书只会为读者展示简单.人造的例子.这会导致贝叶斯推断给读者留下"那又如何?"的印象.实际上,这曾是我自己的先验观点. 最近贝叶斯方法在一些机器学习竞赛上取得了成功,让我决定再次研究这一主题.然而即便以我的数学功底,我也花了整整3天时间

《贝叶斯方法：概率编程与贝叶斯推断》——第1章　贝叶斯推断的哲学 1.1　引言

第1章贝叶斯推断的哲学贝叶斯方法:概率编程与贝叶斯推断 1.1 引言尽管你已是一个编程老手,但bug仍有可能在代码中存在.于是,在实现了一段特别难的算法之后,你决定先来一个简单的测试用例.这个用例通过了.接着你用了一个稍微复杂的测试用例.再次通过了.接下来更难的测试用例也通过了.这时,你开始觉得也许这段代码已经没有bug了. 如果你这样想,那么恭喜你:你已经在用贝叶斯的方式思考!简单地说,贝叶斯推断是通过新得到的证据不断地更新你的信念.贝叶斯推断很少会做出绝对的判断,但可以做出非常可信的判

《贝叶斯方法：概率编程与贝叶斯推断》——1.1　引言

1.1 引言尽管你已是一个编程老手,但bug仍有可能在代码中存在.于是,在实现了一段特别难的算法之后,你决定先来一个简单的测试用例.这个用例通过了.接着你用了一个稍微复杂的测试用例.再次通过了.接下来更难的测试用例也通过了.这时,你开始觉得也许这段代码已经没有bug了. 如果你这样想,那么恭喜你:你已经在用贝叶斯的方式思考!简单地说,贝叶斯推断是通过新得到的证据不断地更新你的信念.贝叶斯推断很少会做出绝对的判断,但可以做出非常可信的判断.在上面的例子中,我们永远无法100%肯定我们的代码是无缺

猜你喜欢

Asp中如何快速分页

分页近日一直在研究如何才能写出高小的分页算法,大概整理了一下,思路如下: 首先数据库里需要有一个自动编号字段(ID).然后第一次访问的时候,取出所有记录,定制好每页的记录数PageSize,计算出页 ...

交互设计:适时的给用户操作提供帮助

任何一个交互过程的操作,对于用户来说都有学习成本,谁也不能保证所有人都可以准确无误地走完一个流程.交互设计师在设计时应该考虑适时地给用户相应的帮助,这一点非常重要.适时帮助,是指在用户使用流程中,在 ...

vb.net枚举网络中所有的SQL 2000服务器

服务器|网络对于SQL Server2000来说,打开SQL Server客户端准备连接,当拉开服务器列表的时候,整个局域网所有的SQL Server服务器都被列出来了. vb.net枚举网络中所有 ...

让您的主页支持各种浏览设备（ASP.NET篇)(上）

前面我们看到了对于移动控件的介绍,现在我们具体来看看他的用法. 使用移动控制使用移动控制就和使用其它ASP+控制一样简单.事实上他更加简单,因为他是产生整个页面,而不是部分页面.我们甚至不必去 ...

系统重装前要做哪些工作

"遇到小问题重启,遇到大问题重装",这恐怕是大多数人的电脑使用法则.现在各种各样的木马病毒泛滥成灾,各种各样的软件也层出不穷,说不定哪天电脑就不小心中毒了,又或者软件之间发生了冲 ...

ios通过URL地址，从网络上获取图片

-(UIImage *) getImageFromURL:(NSString *)fileURL { NSLog(@"执行图片下载函数"); UIImage * result ...

电子商务网站出售按钮5点设计技巧

设计一个合适的"购买按钮"只是把"buy now(立即购买)"字样的文字放在一个蓝色的矩形上是不够的,因为这并没产生你预期的效果.幸运的是,一旦你了解了一些 ...

word怎么设置横向页面

小编每次打开word文档如果有超过一页的都会呈现横向二页的展示方向,看起来非常不习惯,因为页面是默认方向是纵向的,所以我们设置成横向页面,下面就来教大家word怎么设置横向页面,方向其实超级简单. ...

ps索引图片怎么解锁

小编一小伙伴在处理图片时发现导入到photoshop里面的图片使用文字工具就会颜色并且解锁不了,其实是因为图片模式是索引模式,只要改成CMYK或者RGB颜色模式就可以了解锁啦.具体操作方法如下: ...

win7系统取消自动隐藏任务栏的操作方法

我们都知道win7系统任务栏是非常实用的功能,它既能将你常用的软件直接添加到你的任务栏中以方便使用,也能在打开多个软件时起到预览的作用,所以说使用电脑时,下方的任务栏起到了非常重要的辅助作用.现在 ...

阿里旺旺2015活跃度怎么算

友情提醒:使用阿里旺旺2015时,如果大量给陌生人发送单向垃圾消息或是其它垃圾消息等,违反了阿里旺旺使用规则,是有可能被处罚活跃度的哦.

《ActionScript 3.0基础教程》——1.4　对象参数

1.4 对象参数现在基本的知识你已经掌握了,你将开始写一些ActionScript代码来操作舞台上的蓝色圆圈. 任何的对象.元件.图像.动画都有自己的属性,例如舞台上的圆圈就有一些属性. 注意看属性 ...

二叉查找树

二叉查找树,也称二叉排序树,二叉搜索树. 它或者是一棵空树:或者是具有下列性质的二叉树: 若左子树不空,则左子树上所有结点的值均小于它的根结点的值: 若右子树不空,则右子树上所有结点的值均大于它的根结 ...

jsp-后台到数据库可以查到值，但是，前台却不显示值，但是又一行记录，这是为什么？

问题描述后台到数据库可以查到值,但是,前台却不显示值,但是又一行记录,这是为什么? --------------------------------listProducts.jsp--------- ...

b/s客户端和服务器的交互（转）

原文:http://igoro.com/archive/what-really-happens-when-you-navigate-to-a-url/ 作为一个软件开发者,你一定会对网络应用如何工 ...

Struts2 新漏洞（S2-052）出现利用实例，面对漏洞企业应当分秒必争

9月5日,千疮百孔的 Struts2 应用又曝出存在新的高危远程代码执行漏洞(S2-052).该漏洞由 lgtm.com 的安全研究员汇报,编号为 CVE-2017-9805 ,漏洞危害程度为高危(C ...

一道面试题：比较两个集合是否相等？

先声明:本文内容是偏向于应用开发的,分析解答过程不适用于纯算法研发岗位. 朋友小P近来参加某互联网公司的电话面试,被问到一道题:怎么判断两个集合是否相等?注意,这是面试官的原话,一字不多,一字不少 ...

php word转pdf-php执行exec把word转成pdf权限问题

问题描述 php执行exec把word转成pdf权限问题服务器:ubuntu14.04 PHP:5.4 apache:2.0 我按照网上找的方法把jdk1.7.0_79,jodconverter-2 ...

将 Google 的云计算功能连接到 Apple 的 iPhone 中

简介过去几年出现了很多创新技术,2008 年对技术而言是不同凡响的一年.两项最让人兴奋的创新是云计算和移动应用程序开发.在本文中,我们将探究一种通信方法,这种方法能利用这两个技术来实现协作开发人员的 ...

spring-前言不允许有内容，是什么错误呢？

问题描述前言不允许有内容,是什么错误呢? org.springframework.beans.factory.xml.XmlBeanDefinitionStoreException: Line 1 ...

为什么用户2和3的温度是 1/2 ，而不是n/n=1

问题描述为什么用户2和3的温度是 1/2 ,而不是n/n=1 对于热传导的过程,首先每一个用户的温度等于所有他购买过的商品的温度的平均值,如图(d)所示,如第一个用户购买了商品1和商品4,则该用户的 ...

ios-移除UITabBarItem的空白

问题描述移除UITabBarItem的空白创建了一个应用包含tabBar.在 tabBar中64*64 和 32*32的图片满足tabBarItem.但是在图片下方会有一些空白地方,如图所示,应该 ...

eclipse4 中文语言包Bug（ ok 翻译为正常）

问题描述大家有没有发现,最新的EclipseLuna(Eclipse4)的中文语言包中的ok被翻译为了正常!看起来非常别扭,这个翻译在哪里修改?希望有权限的人到EclipseBabel项目去修正一下 ...

第二届中国风险投资大会举行

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客站长团购云主机技术大厅 2007第二届中国风险投资 ...

渠道“拿来主义”：宏碁携方正阻击联想

王如晨张京科一笔不错的买卖就这么敲定下来.昨日,方正科技与宏碁集团终于公布了合作细节:宏碁获授权全面运营方正科技PC品牌,并按约定使用方正PC业务的销售及生产体系.方正科技则朝产业上游转型. 两者 ...

JavaScript框架是什么?怎样才能叫做框架？_javascript技巧

刚初学js时,总会听到关于框架的一些事情.等学完JQ后我才知道什么是框架.一下是转载的一篇文章,希望对还迷茫的童鞋们有点帮助. 什么是 JavaScript 框架? JavaScript 本身就是一种 ...

js密码强度检测_javascript技巧

本文实例讲解了js密码强度检测的实现代码,分享给大家供大家参考,具体内容如下运行效果图: 这段JavaScript代码比较实用,它完成用户注册时判断用户输入密码的强度,分强.弱.中三等级,它可以根据 ...

Web移动端Fixed布局的解决方案_web2.0

移动端业务开发,iOS 下经常会有 fixed 元素和输入框(input 元素)同时存在的情况. 但是 fixed 元素在有软键盘唤起的情况下,会出现许多莫名其妙的问题. 这篇文章里就提供一个简单的有 ...

php格式化金额函数分享_php实例

最近的项目在处理资金这一块的功能,对人民币金额的格式化输出是必不可少的功能.这个功能比较独立而且还比较大众化,所以封装成了函数就发上去也算是方便大家. 复制代码代码如下: /** * 格式化金额 ...

小艾网店被关引发讨论

7月16日深夜,24岁的淘宝网女装店店主小艾关上电脑,上床休息.次日被发现已经在睡梦中离世.在她离世之后,她苦心经营两年的皇冠店被淘宝网关闭.小艾是淘宝网600万个店主之一,她的离开引发了关于&quo ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.022 s.