手把手教你用 Python 和 Scikit-Learn 实现垃圾邮件过滤

文本挖掘(Text
Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。

在这些应用中,垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始,例如 Gmail
账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集
Ling-spam,编写一个垃圾邮件的过滤器。Ling-spam 数据集的下载地址如下:

http://t.cn/RKQBl9c

这里我们已经从 Ling-spam 中提取了相同数量的垃圾邮件和非垃圾邮件,具体下载地址如下:

http://t.cn/RKQBkRu

下面我们将通过以下几个步骤,编写一个现实可用的垃圾邮件过滤器。

1. 准备文本数据;

2. 创建词典(word dictionary);

3. 特征提取;

4. 训练分类器。

最后,我们会通过一个测试数据集对过滤器进行验证。

  1. 准备文本数据

这里我们将数据集分成了训练集(702封邮件)和测试集(260封邮件)两部分,其中垃圾和非垃圾邮件各占 50%。这里因为每个垃圾邮件的数据集都以 spmsg 命名,因此很容易区分。

在大部分的文本挖掘问题中,文本清理都是第一步,即首先要清理掉那些与我们的目标信息无关的词句,本例中也一样。通常邮件里一般都会包含很多无用的字符,比如标点符号,停用词,数字等等,这些字符对检测垃圾邮件没什么帮助,因此我们需要将它们清理掉。这里
Ling-spam 数据集里的邮件已经经过了以下几个步骤的处理:

a) 清除停用词 --- 像 "and", "the", "of" 等这些停用词在英语语句中非常常见。然而,这些停用词对于判定邮件的真实身份并没有什么卵用,所以这些词已经从邮件中被移除。

b) 词形还原 --- 这是一种把同一个词的不同形式组合在一起,以便被当做一个单独项目来分析的过程。举个栗子,"include",
"includes" 和 "included" 就可以全部用 "include"
来代表。与此同时,语句的上下文含义也会通过词形还原的方法保留下来,这一点不同于词干提取 (stemming)
的方法(注:词干提取是另一种文本挖掘的方法,此法不考虑语句的含义)。

此外,我们还需要移除一些非文字类的符号(non-words),比如标点符号或者特殊字符之类的。要实现这一步有很多方法,这里,我们将首先创建一个词典(creating
a
dictionary),之后再移除这些非文字类的符号。需要指出的是,这种做法其实非常方便,因为当你手上有了一个词典之后,对于每一种非文字类符号,只需要移除一次就
ok 了。

  2. 创建词典(Creating word dictionary)

一个数据集里的样本邮件一般长这样:


  1. Subject: posting 
  2.  
  3. hi , ' m work phonetics project modern irish ' m hard source . anyone recommend book article english ? ' , specifically interest palatal ( slender ) consonant , work helpful too . thank ! laurel sutton ( sutton @ garnet . berkeley . edu 

你会发现邮件的第一行是标题,从第三行开始才是正文。这里我们只在邮件正文内容的基础上做文本分析,来判定该邮件是否为垃圾邮件。第一步,我们需要创建一个文字的词典和文字出现的频率。为了创建这样一个“词典”,这里我们利用了训练集里的
700 封邮件。具体实现详见下面这个 Python 函数:


  1. def make_Dictionary(train_dir): 
  2.     emails = [os.path.join(train_dir,f) for f in os.listdir(train_dir)]     
  3.     all_words = []        
  4.     for mail in emails:     
  5.         with open(mail) as m: 
  6.             for i,line in enumerate(m): 
  7.                 if i == 2:  #Body of email is only 3rd line of text file 
  8.                     words = line.split() 
  9.                     all_words += words 
  10.      
  11.     dictionary = Counter(all_words) 
  12.     # Paste code for non-word removal here(code snippet is given below)  
  13.     return dictionary 

词典创建好之后,我们只要在上面函数的基础上再加几行代码,就可以移除之前提到的那些非文字类符号了。这里我还顺手删掉了一些与垃圾邮件的判定无关的单字符,具体参见如下的代码,注意这些代码要附在
def make_Dictionary(train_dir) 函数的末尾。


  1. list_to_remove = dictionary.keys() 
  2. for item in list_to_remove: 
  3.     if item.isalpha() == False:  
  4.         del dictionary[item] 
  5.     elif len(item) == 1: 
  6.         del dictionary[item] 
  7. dictionary = dictionary.most_common(3000) 

这里通过输入 print dictionary
指令就可以输出词典。需要注意的是,你在打印输出的词典里可能会看到许多无关紧要的词,这一点无需担心,因为我们在后续的步骤中总是有机会对其进行调整的。另外,如果你是严格按照上文提到的数据集操作的话,那么你的词典里应该会有以下这些高频词(本例中我们选取了频率最高的
3000 个词):

[('order', 1414), ('address', 1293), ('report', 1216), ('mail',
1127), ('send', 1079), ('language', 1072), ('email', 1051), ('program',
1001), ('our', 987), ('list', 935), ('one', 917), ('name', 878),
('receive', 826), ('money', 788), ('free', 762)

  3. 特征提取

词典准备好之后,我们就可以对训练集里的每一封邮件提取维度是 3000 的词数向量 word count
vector(这个向量就是我们的特征),每一个词数向量都包含之前选定的 3000
个高频词具体的出现频率。当然,你可能猜到了,大部分出现的频率应该会是 0。举个栗子:比如我们字典里有 500 个词,每个词数向量包含了训练集里这
500 个词的出现频率。假设训练集有一组文本:“Get the work done, work
done”。那么,这句话对应的词数向量应该是这样的:[0,0,0,0,0,…….0,0,2,0,0,0,……,0,0,1,0,0,…0,0,1,0,0,……2,0,0,0,0,0]。在这里,句中的每个词出现的频率都能显示出来:这些词分别对应长度为
500 的词数向量中的第 296,359,415 和 495 的位置,其他位置显示为 0。

下面这个 python 函数会帮助我们生成一个特征向量矩阵,该矩阵有 700 行 3000 列。其中每一行代表训练集中 700
封邮件的的每一封邮件,每一列代表词典中的 3000 个关键词。在 “ij” 位置上的值代表了词典中第 j 个词在该邮件(第 i
封)中出现的次数。


  1. def extract_features(mail_dir):  
  2.     files = [os.path.join(mail_dir,fi) for fi in os.listdir(mail_dir)] 
  3.     features_matrix = np.zeros((len(files),3000)) 
  4.     docID = 0; 
  5.     for fil in files: 
  6.       with open(fil) as fi: 
  7.         for i,line in enumerate(fi): 
  8.           if i == 2: 
  9.             words = line.split() 
  10.             for word in words: 
  11.               wordID = 0 
  12.               for i,d in enumerate(dictionary): 
  13.                 if d[0] == word: 
  14.                   wordID = i 
  15.                   features_matrix[docID,wordID] = words.count(word) 
  16.         docID = docID + 1      
  17.     return features_matrix 

 

4.训练分类器

在这里我们会使用 scikit-learn 机器学习库来训练分类器,scikit-learn 库的相关链接如下:

http://t.cn/SMzAoZ

这是一个绑定在第三方 python 发行版 Anaconda 的开源机器学习库,可以跟随 Anaconda 一同下载安装,或者也可以按照以下链接中的提示独立安装:

http://t.cn/8kkrVlQ

安装好了之后,我们只需要将其 import 到我们的程序中就可以使用了。

这里我们训练了两个模型,分别是朴素贝叶斯分类器和
SVM(支持向量机)。朴素贝叶斯分类器是一个传统的监督型概率分类器,在文本分类的场景中非常常用,它基于贝叶斯定理,假设每一对特征都是相互独立的。SVM

是监督型的二分类器,面对特征数量较多的场景时非常有效,其最终目标是从训练数据中分离出一组子集,称为支持向量(分离超平面的边界)。判定测试数据最终类别的
SVM 决策函数正是基于该支持向量和内核技巧(kernel trick)的。

分类器训练完成后,我们可以在测试集上测试模型的性能。这里我们为测试集中的每封邮件提取字数向量,然后用训练好的朴素贝叶斯分类器和 SVM
模型,预测它的类别(普通邮件或垃圾邮件)。下面是垃圾邮件分类器的完整 python 代码,另外还需要包含我们在步骤 2 和步骤 3
中定义的两个函数。


  1. import os 
  2. import numpy as np 
  3. from collections import Counter 
  4. from sklearn.naive_bayes import MultinomialNB, GaussianNB, BernoulliNB 
  5. from sklearn.svm import SVC, NuSVC, LinearSVC 
  6. from sklearn.metrics import confusion_matrix  
  7. # Create a dictionary of words with its frequency 
  8.  
  9. train_dir = 'train-mails' 
  10. dictionary = make_Dictionary(train_dir) 
  11.  
  12. # Prepare feature vectors per training mail and its labels 
  13.  
  14. train_labels = np.zeros(702) 
  15. train_labels[351:701] = 1 
  16. train_matrix = extract_features(train_dir) 
  17.  
  18. # Training SVM and Naive bayes classifier 
  19.  
  20. model1 = MultinomialNB() 
  21. model2 = LinearSVC() 
  22. model1.fit(train_matrix,train_labels) 
  23. model2.fit(train_matrix,train_labels) 
  24.  
  25. # Test the unseen mails for Spam 
  26. test_dir = 'test-mails' 
  27. test_matrix = extract_features(test_dir) 
  28. test_labels = np.zeros(260) 
  29. test_labels[130:260] = 1 
  30. result1 = model1.predict(test_matrix) 
  31. result2 = model2.predict(test_matrix) 
  32. print confusion_matrix(test_labels,result1) 
  33. print confusion_matrix(test_labels,result2) 

 

性能测试

这里我们的测试集中包含 130 封垃圾邮件和 130 封非垃圾邮件,如果你已经顺利完成了之前的所有步骤,那么你将会得到如下的结果。这里显示的是两个模型在测试数据中的混淆矩阵,对角元素代表了正确识别的邮件数,非对角元素代表的则是错误的分类。

可以看到,两个模型在测试集上有着相近的性能,但 SVM 更倾向垃圾邮件的判定。需要注意的是,这里的测试数据集既没有用于创建字典,也没有用于模型训练。

  拓展

感兴趣的朋友可以按照上文所述的步骤进行一些拓展,这里介绍拓展相关的数据库和结果。

拓展使用的是已经预处理好的 Euron-spam 数据库,其中包含了 6 个目录,33716 封邮件,每个目录中都包含非垃圾邮件和垃圾邮件子目录,非垃圾邮件和垃圾邮件的总数分别为 16545 封和 17171 封。Euron-spam 库的下载链接如下:

http://t.cn/RK84mv6

需要注意的是,由于 Euron-spam 数据库的组织形式有别于上文提到的 ling-spam 库,因此上文的一些函数也需要做少量的修改才能应用于 Euron-spam。

这里我们将 Euron-spam 数据库按照 3:2 的比例分为训练集和测试集,按照上文的步骤,我们在 13478 封测试邮件中得到了如下结果:

可以看到,SVM 的表现略胜于朴素贝叶斯。

  总结

在本文中我们尽量保持简单易懂的叙述,省略了许多技术性强的讲解和名词。我们希望这是一篇简单易懂的教程,希望这篇教程可以对文本分析感兴趣的初学者们有所裨益。

有些朋友可能会对朴素贝叶斯模型和 SVM 模型背后的数学原理感到好奇,这里需要指出的是,SVM
在数学上属于比较复杂的模型,而朴素贝叶斯则相对更容易理解一些。我们当然鼓励对数学原理感兴趣的朋友们深入探索,关于这些数学模型网上有非常详细的教程和实例。除此之外,采用不同的方式实现同一个目标,也是一种很好的研究方法。例如可以调节如下一些参数,观察它们对垃圾邮件过滤的实际效果的影响:

a) 训练数据的大小

b) 词典的大小

c) 不同的机器学习模型,包括 GaussianNB,BernoulliNB,SVC

d) 不同的 SVM 模型参数

e) 删除无关紧要的词来改进词典 (例如手动删除)

f) 采用其他特征模型 (寻找 td-idf)

最后,博客中提到的完整 python 代码详见如下链接:

http://t.cn/R6ZeuiN

若有问题,欢迎在文末留言讨论。

作者:AI研习社

来源:51CTO

时间: 2024-08-29 07:46:04

手把手教你用 Python 和 Scikit-Learn 实现垃圾邮件过滤的相关文章

手把手教你用Python抓取AWS的日志(CloudTrail)数据

数据时代,利用数据做决策是大数据的核心价值.   本文手把手,教你使用python进行AWS的CloudTrail配置,进行日志抓取.进行数据分析,发现数据价值!   如今是云的时代,许多公司都把自己的IT架构部署在基础架构云(IaaS)上.著名的IaaS提供商有亚马逊,微软(Azure),IBM等,国内也有诸如阿里云等.其中,亚马逊毫无疑问是该市场的领军者.   AWS提供了非常多的服务,领先了竞争对手一大截.并且AWS提供非常丰富的API,其API基于Rest,所以很容易被不同的语言的平台来

大神手把手教你:(Python)序列数据的One Hot编码

更多深度文章,请关注:https://yq.aliyun.com/cloud 机器学习算法无法直接用于数据分类.数据分类必须转换为数字才能进一步进行. 在本教程中,你将发现如何将输入或输出的序列数据转换为一种热编码,以便于你在Python中深度学习的序列分类问题中使用. 看完本教程后,你将会了解: ·   1.什么是整数编码和One-Hot编码,以及为什么它们在机器学习中是必需的. ·   2.如何在Python中手工计算一个整数编码和One-Hot编码. ·   3.如何使用scikit-le

手把手教你用Python抓取热门景点热力图!(附代码)

国庆倒计时1天,我们即将迎来8天的小长假,相信很多小伙伴们已经提前规划国庆去哪儿?你是选择去人最少的单位加班呢?还是选择人山人海的景点观光? 如果去人最少的单位加班,一定要记得告知老板,以望升职加薪走上人生巅峰: 如果选择人山人海的景点,一定要提前查看攻略,比如下文中使用 Python 技术抓取热门景点的热力图. 金秋九月,丹桂飘香,在这秋高气爽,阳光灿烂的收获季节里,我们送走了一个个暑假余额耗尽哭着走向校园的孩子们,又即将迎来一年一度伟大祖国母亲的生日趴体(无心上班,迫不及待想为祖国母亲庆生)

独家 | 手把手教你用Python 3创建用于机器学习开发的Linux虚拟机(附安装教程&代码)

Linux是使用Python进行机器学习开发的极佳环境.这些工具能够被简便快捷地安装,并且您可以直接开发和运行大型模型. 在本教程中,您将了解如何使用Python创建和安装用于机器学习的Linux虚拟机.完成本教程后,您将知道: 如何下载和安装VirtualBox来管理虚拟机如何下载和安装Fedora Linux如何在Python 3中为机器学习安装一个SciPy环境 如果您的电脑操作系统是Windows.Mac OS X和Linux.那么本教程是适合您的. Linux虚拟机的好处 您可能有很多

亲测,手把手教你用Python抢票

随着春节的临近,大家都在和12306斗智斗勇.今天,大数据文摘推出不到100行的Python程序帮助大家来抢票. 首先说明一下,我们程序的出发点是能用机器做的事就用机器做,需要人来做的事还是要自己来做.因此,12306上五花八门的验证码还是需要大家自己动手输入确认的.另外,本程序对容错什么的考虑较少,请大家见谅. 我们要用到浏览器chrome,还没有安装的读者可以从这个下载地址下载chrome并进行安装:http://chromedriver.storage.googleapis.com/ind

手把手教你用 Python 实现针对时间序列预测的特征选择

要将机器学习算法应用于时间序列数据,需要特征工程的帮助. 例如,单变量的时间序列数据集由一系列观察结果组成,它们必须被转换成输入和输出特征,才能用于监督性学习算法. 但这里有一个问题:针对每个时间序列问题,你可以处理的特征类型和数量,却并没有明确的限制.当然,古典的时间序列分析工具(如相关图correlogram)可以帮助评估滞后变量(lag variables),但并不能直接帮助开发者对其他类型的特征进行选择,例如从时间戳(年.月.日)和移动统计信息(如移动平均线moving average)

手把手教你从零搭建Python数据分析环境

由于最近再做推荐系统的特征处理,需要借助一些工具来筛选特征.最初使用了R,R的安装很简单,而且API也很容易使用,直接就能出图.后来,发现很多人在python和R之间做选择,所以我也在两个工具间摇摆不定.后来,发现Tensorflow里面有很多python的代码,而且python可以做爬虫写web,几乎是万金油的角色.本着想找一门以后日常使用的工具的心态,最终还是选择了python. 那么本篇就从下面几个方面介绍下,如何在日常使用python做数据分析: python安装以及numpy.matp

机器学习零基础?手把手教你用TensorFlow搭建图像识别系统(三)| 干货

雷锋网按:本文是介绍用TensorFlow构建图像识别系统的第三部分. 在前两部分中,我们构建了一个softmax分类器来标记来自CIFAR-10数据集的图像,实现了约25-30%的精度. 因为有10个不同可能性的类别,所以我们预期的随机标记图像的精度为10%.25-30%的结果已经比随机标记的结果好多了,但仍有很大的改进空间.在这篇文章中,作者Wolfgang Beyer将介绍如何构建一个执行相同任务的神经网络.看看可以提高预测精度到多少!雷锋网(公众号:雷锋网)对全文进行编译,未经许可不得转

从投简历到谈薪酬,手把手教你应聘远程办公的工作

要是都能在家工作,谁还想去上班呀?远程办公虽好,竞争却也激烈.这篇原题为Tips for landing the job you want的文章发表于科技网站Code like a Girl,作者以个人经历告诉你远程求职从筛选简历到面试各阶段的注意事项,求职季马上到,小伙伴们可以收好啦. 远程工作很难找.我们团队的许多员工都可以远程办公.目前,我们的团队已扩充到85余人,并且长期欢迎来自以下国家和美国州的人们加入: 国家包括:阿根廷,巴西,保加利亚,加拿大,克罗地亚,埃及,英国,德国,危地马拉,