如何用机器学习对文本分类

需求

使用监督学习对历史数据训练生成模型，用于预测文本的类别。

样本清洗

主要将重复的数据删除掉，将错误无效的数据纠正或删除，并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。

def writeFile(text):
   file_object = open('result.txt','w')
   file_object.write(text)
   file_object.close()

def clear():
   text = ""
   file_obj = open("deal.txt")
   list_of_lines = file_obj.readlines()
   for line in list_of_lines:
     if(len(line)>13):
       text += line
   writeFile(text)
   file_obj.close()

定好类别集合

按照样本集人工做好分类，比如分为以下几类：

编号	类别
1	环保
2	交通
3	手机
4	法律
5	汽车

分类词库

特征提取涉及到文本分词，由搜狗http://pinyin.sogou.com/dict/可以搜索各种类别的词汇，自己下载下来再整理，它的格式为scel，可以使用深蓝词汇转换工具转成txt方便使用。

常用算法

朴素贝叶斯
Rocchio
SVM
KNN
决策树
神经网络

这里选择用SVM，SVM本质上其实也就是一种特殊的两层神经网络，具有高效的学习算法。

特征集

使用SVM分类时其中一项重要的工作就是要确定特征集，只有特征集确定好了才能往下计算，那么怎么确定特征集呢？一般的做法可以是将所有样本的词都提取出来作为特征集。比如我们有两个文本
“小学生上学”和“股票大跌”，那特征集就是{“小学生”,”上学”,”股票”,”大跌”}。

特征权重

特征集确定就可以看成是向量的维数，而对于每个样本来说就需要确定每个维度的值了，这个值可以看成是特征的权重，常常用TF-IDF作为值。TF-IDF又是什么？简单来说TF就是某文档中某个term出现的次数，而IDF即逆文档频率，可由下面公式计算：

IDF=log(Tt)

其中，T为统计样本中总文档数，t为包含某term的文档数。
TF和IDF的相乘则为特征权重。

特征降维

当统计样本越来越多且每个样本都比较大时，这时可能会导致特征维度特别大。所以可能会要对特征集进行降维处理。特征降维其实就是将一些几乎没影响的维度去掉，以避免维度灾难。有比较多处理方式：比如可以直接定义一个无意义词库将一些没意义的单词去掉、或以词频作为依据选择出代表性的单词、或以其他算法提取出若干热词作为代表性单词、或用经典的卡方校验算法选择代表性单词，以上方式都可以达到降维效果。

代码

机器学习库很多，可以选一个自己比较熟悉的且叫有名的库来实现，关键的代码如下：

double[][] samples = 所有样本特征集及权重数组
int labelInt[] = 分类标签数组
SVM<double[]> svm =
        new SVM<double[]>(new LinearKernel(), 1.0, 12, SVM.Multiclass.ONE_VS_ALL);
svm.learn(samples, labels);
svm.finish();

double[] test = 测试数据的特征集及权重数组
svm.predict(x)

参数

SVM参数需要选择的主要有两个：核函数和惩罚因子。主要的核函数包括RBF核、线性核、多项式核和Sigmoid核，文本分类中一般可选线性核。惩罚因子用来惩罚分错的样本，惩罚因子越大说明越重视损失，不断增大它最终总能让所有样本都正确分类，但这可能会存在过拟合，影响后面的泛化能力。

====广告时间，可直接跳过====

鄙人的新书《Tomcat内核设计剖析》已经在京东预售了，有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

=========================

欢迎关注：

时间： 2024-10-06 10:51:50

如何用机器学习对文本分类的相关文章

NLPIR深度机器学习的文本分类

近年来,随着Intemet的迅猛发展,网络信息和数据信息不断扩张,如何有效利用这一丰富的数据信息,已成为广大信息技术工作者所关注的焦点之一.为了快速.准确的从大量的数据信息中找出用户所需要的信息,文本信息的自动分析也成为了当前的迫切需要.对文本信息的分析中的一个主要技术就是文本分类.文本分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题.文本分类是将文本按一定的规则归于一个或多个类别中的技术.近年来,许多统计的方法和机器学习的方法都应用到文本分类方面. 文本分类是指在给定的

我是如何用机器学习技术帮助 HR 省时间的

引言假设简历库中有 10000 份名为 "软件工程师" 的简历. 一位 HR 在搜索 "Android 工程师" 时仅关注名称为 "Android 工程师" 的简历,她将遗漏 912 份有可能匹配的简历:如果这位 HR 愿意花时间从头到尾通读每一份 "软件工程师" 的简历,将其中真正从事 Android 研发的简历筛选出来,那么她需要多阅读 9088 份无效的软件工程师简历.假设阅览一份简历需要 15 秒,这项工作将占据她

手把手教你如何用 TensorFlow 实现基于 DNN 的文本分类

许多开发者向新手建议:如果你想要入门机器学习,就必须先了解一些关键算法的工作原理,然后再开始动手实践.但我不这么认为. 我觉得实践高于理论,新手首先要做的是了解整个模型的工作流程,数据大致是怎样流动的,经过了哪些关键的结点,最后的结果在哪里获取,并立即开始动手实践,构建自己的机器学习模型.至于算法和函数内部的实现机制,可以等了解整个流程之后,在实践中进行更深入的学习和掌握. 那么问题来了,既然作为初学者不需要掌握算法细节,但实现模型的过程中又必须用到相关算法,怎么办呢?答案是借助于互联网上已经实

一文详解如何用 TensorFlow 实现基于 LSTM 的文本分类（附源码）

引言学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用tensorflow实现了一下,感觉和之前使用的theano还是有很大的区别,有必要总结mark一下. 模型说明这个分类的模型其实也是很简单,主要就是一个单层的LSTM模型,当然也可以实现多层的模型,多层的模型使用Tensorflow尤其简单,下面是这个模型的图简单解释一下这个图,每个word经过embedding之后,进入LSTM层,这里LSTM是

从Facebook AI Research开源fastText谈起文本分类：词向量模性、深度表征和全连接

更多深度文章,请关注:https://yq.aliyun.com/cloud 文本分类(text classification)是机器学习的一个主要任务,通常用作垃圾邮件检测.新闻/文章主题生成.多义词正确词义选择等.之前,Statsbot团队已经分享了<如何检测垃圾邮件/信息/用户评论>.本文主要介绍少数几个广义上的文本分类算法及相关案例,同时也提供了一些有用的教程和工具. 文本分类基准(Benchmarks) 目前,搞文本挖掘的人通常会使用很多小技巧和工具,比如TF-ID

用神经网络进行文本分类

本文讲的是用神经网络进行文本分类, 理解聊天机器人如何工作是很重要的.聊天机器人内部一个基础的组成部分是文本分类器.让我们一起来探究一个用于文本分类的人工神经网络的内部结构. 多层人工神经网络我们将会使用两层神经元(包括一个隐层)和词袋模型来组织(organizing 似乎有更好的选择,求建议)我们的训练数据.有三种聊天机器人文本分类的方法:模式匹配,算法,神经网络.尽管基于算法的方法使用的多项式朴素贝叶斯方法效率惊人,但它有三个根本性的缺陷: 该算法的输出是一个评分而非概率.我们想要的是一个

学术青年分享会：达观数据张健分享文本分类方法和应用案例

自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决.随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间. 近期,雷锋网 AI 研习社就邀请到了达观数据的张健为大家分享了一些NLP方面的知识和案例. 分享主题:达观数据 NLP 技术的应用实践和案例分析分享人:张健,达观数据联合创始人,文本挖掘组总负责人,包括文本审核系统的架构设计.开发和日常维护

文本分类的背景和流程

目前所说的文本分类是通过机器学习的方式对文本进行分类. 首先给出各类文本的样例,也就是训练集,然后程序会通过统计方法找出各类文本背后隐藏的统计规律,比如某类文本中某些词出现的次数比较多,然后对未知类别的文本进行判断. 具体可以分为以下流程: 1. 构建训练集:通过人工方式对原始文本进行标定,比如分为垃圾邮件和正常邮件.训练集中各类文本最好能偶达到数目平衡,避免出现某一类特别多,另外一类特别少的情况(如果出现了,可以通过一系列方法进行弥补,比如最简单的"向下取样法"或者"向上取

文本分类与SVM

之前做过一些文本挖掘的项目,比如网页分类.微博情感分析.用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm.所以这里将之前做过一些关于文本分类的东西整理总结一下. 1 基础知识 1. 1 样本整理文本分类属于有监督的学习,所以需要整理样本.根据业务需求,确定样本标签与数目,其中样本标签多为整数.在svm中其中如果为二分类,样本标签一般会设定为-1和1,而在朴素贝叶斯方法中,一般为0和1,但不是固定的,标签的设置和算法本身的性质有关的. 如下面的整理的样本,1为正类

猜你喜欢

ASP编程入门进阶（十七）：FSO组件之文件夹操作

fso|编程|fso 操作完驱动器,接着就是来操作文件夹了.其中包括:提取文件夹信息.创建文件夹.删除文件夹.复制文件夹.移动文件夹等.下面就具体来看. 一.fso.GetFolder一看就明白,是提 ...

淘宝seo之淘宝宝贝标题优化具体步骤

现在很多人都在谈淘宝seo,如何让自己的宝贝快速的获得排名,从淘宝引来更多的精准的流量,可是很多人对淘宝标题并不是那么看重,但是这一部分对于淘宝获取自然流量却是非常的重要,很多淘宝里的宝贝,只要稍微修 ...

小谈MySQL字符集

mysql 首先,这片文章纯粹是我的个人经验之谈,适用于我常见的环境及项目中.个人建议,数据库字符集尽量使用utf8(HTML页面对应的是utf-8),以使你的数据能很顺利的实现迁移,因为utf8字符 ...

网站SEO数据分析容易犯的三个错误

不知道大家有没有感觉到,国内的SEO行业在2012年得到了非常好的发展,在这一年百度进行了算法的更新,建立了百度站长平台,提高了搜索结果质量.可能有的朋友会反驳说:2012年是SEO工作者悲剧的一年, ...

堆(heap)简介及实现

堆(heap)又被为优先队列(priority queue).堆并不是队列的子集.回忆一下,在队列中,我们限定的操作是dequeue和enqueue.其中dequeue是按照进入队列的先后顺序来取出元 ...

C#中使用WMI编写网络程序

WMI是Windows Management Instrumentation的简称,即:视窗管理规范.在 Windows 2000或以后的版本中均安装得有,NT4.0则需要安装WMI的核心组件.通过 ...

Photoshop制作透明边框

步骤1:打开原图将双击背景层将它转成普通图层. 步骤2:按住Ctrl+单击转换后的背景图层载入选区.执行选择菜单--变换选区,按住Alt+Shift把选区等比缩小如图: 步骤3 ...

unity3d怎么连接sql server数据库

虽然在Unity3D中能够通过PlayerPrefs类来保存和读取数据,但是一旦数据量增大,仅仅通过代码的方式存取数据,这样的工作量是非常大的.那么如何通过使用Sql Server数据库来存取数据 ...

如何在Excel中制作图表功能

表格数据所表达的信息常常显得枯燥乏味,不易理解,如果制成图表,则能一目了然.例如,图1所示 Office所带的图表制作程序-Graph能利用表格数据来创建图表.该程序作为Office工具中的一个组件, ...

Word2007文档中如何批量替换某文字字体

因为样式需要,我们可能需要对word文档中的某些关键词字体进行个性化设置,如果关键词出现的次数太多,那一个一个改起来还真是费劲,今天我就介绍一种可以批量替换某文字字体的方法. 还有这种情况你是否也 ...

二维码生成器怎么用

彩色二维码生成器是一款二维码生成器软件.该软件内容支持中文,并且还能够使用utf-8编码,对于一般扫描的二维码软件都可以进行识别.软件完全可以免费使用,具有简洁友好的操作界面,使用方法简单易上手. ...

开始菜单或将在Windows “Threshold”里可用

微软似乎正准备在下一个Windows版本加入一些显著的变化.根据大神Paul Thurrott的爆料,微软计划让开始菜单在Windows的下一个重大更新里回归,其当前的研发代号为"Thr ...

jsp中使用javaBean编写一个创建数据库连接的javaBean文件，总是报错！！！！！！！！！跪求高手指点！！！！！！！！！！！

问题描述 packageuseBean;importjava.sql.*;publicclassConn{privateStringdriverManager="com.microsoft. ...

SpriteBuilder中的CCB Node尺寸

当你创建一个类型为Layer的CCB文件时,你将注意到它的默认尺寸大小为568x384. 568个点是4英寸iphone的宽度,同时iPad屏幕只有512个点宽,更准确的说--SpriteBuilde ...

《卸甲笔记》-分组统计查询对比之二

13在分组查询的SELECT子句中出现其他字段(ename) Oracle SQL> select deptno,ename,COUNT(empno) 2 from emp 3 GROUP BY ...

脚本-python中zip后进行sort，但是print结果是None，琢磨很久了

问题描述 python中zip后进行sort,但是print结果是None,琢磨很久了我根据网上找的-- a [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] b [9, 8, 7, 6 ...

croll ane-javaswing JScrollPane组件问题

问题描述 javaswing JScrollPane组件问题问个问题 JScrollPane 可不可以添加panel以后可以让panel自适应JScrollPane的宽度,而高度超出JScrollP ...

基于VLC的播放器开发

VLC的C++封装因为工作需要,研究了一段时间的播放器开发,如果从头开始做,可以学习下FFmpeg(http://www.ffmpeg.org/),很多播放器都是基于FFmpeg开发的,但是这样工作 ...

求助:一直说已停止工作

问题描述求助:一直说已停止工作题目:开始运行先提示用户输入彩球个数n(0<n≤81),然后随机选取颜色和位置填充棋盘,输出填充后的棋盘状态. 接下来,提示用户输入指定彩球的坐标(fx,fy ...

pat-PAT1017 最后两个测试点通不过，请牛人帮忙看下

问题描述 PAT1017 最后两个测试点通不过,请牛人帮忙看下我的代码解决方案 http://blog.csdn.net/stevesun13/article/details/39894561

eclipse-一个考试类型的app，考试界面试题需要实现左右滑动

问题描述一个考试类型的app,考试界面试题需要实现左右滑动一个考试的app,考试界面的试题需要实现左右滑动.目前使用了Srollview滑动,但是快速滑动的时候话卡主滑不动..怎么优化??求大牛建 ...

cl-运行vsvars32.bat却触发“mysql -?”

问题描述运行vsvars32.bat却触发"mysql -?" 前提: Windows下使用命令行(cl命令)编译C语言,需要执行Toolsvsvars32.bat注册环境变量( ...

保障儿童网上安全：上万免费软件过滤不良网站

今年5月17日世界电信和信息社会日的主题为"保障儿童网上安全(Protecting children in cyberspace)".随着互联网的发展和普及,互联网应用的广泛深入, ...

可视化：把整个宇宙放在一张图里

是不是美极了?这是一张以太阳系为中心可以观察到的宇宙的对数刻度概念图. 围绕太阳旋转的是带内行星和带外行星,柯博伊带,奥尔特云,半人马座阿尔法星,英仙臂,银河系,仙女座星系,其他附近的星系,还有在最边 ...

关于mysql的MERGE存储引擎简单例子

关于mysql的MERGE存储引擎简单例子作用:可以将多个表结构相同的表和合并到一个表中版本支持:mysql5.1 如下例子: 假设有如下几个表:结构完全相同 article_0,article ...

广州一女子一次购5部iphone5：称等这一天太久

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; "我等这一天太久了."12月14日 ...

物联网平台的2016之战

[摘要]去年,物联网的趋势快速升温,微软.IBM.AWS和英特尔等云厂商纷纷加入,并推出企业级物联网开发应用平台.它们共同点就是均借助自家庞大的云端资源,让企业接入物联网变得更... 去年,物联网的趋 ...

AngularJS入门心得之directive和controller通信过程_AngularJS

AngularJS 通过新的属性和表达式扩展了 HTML.Angularjs学习起来也非常的简单. 1.AngularJS是何方神圣 Angular JS (Angular.JS) 是一组用来开发We ...

IOS中无限滚动Scrollview效果_IOS

本文实例讲了IOS无限滚动效果,分享给大家供大家参考,具体内容如下滑动到当前位置时候才去请求,本地有内容则直接显示(以来SDWebImage,UIView+Ext) HZScrollView.h # ...

windows系统怎么连接天翼云主机centos5.8远程桌面

要在自己的电脑远程控制天翼云主机的centos操作系统的话,一般可以使用PuTTY这个工具或者使用VNC,PuTTY只能使用命令来操作,而VNC则可以访问图形界面.对于centos深度用户来说,估计是 ...

热搜