【玩转数据系列六】文本分析算法实现新闻自动分类

（本文数据为虚构，仅供实验。本实验拟在介绍文本类组件，具体有意实现效果的提升请联系我们，我们提供完整解决方案和商业合作。）

产品地址：https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

一、背景

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式，消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标，完全由机器智能化实现。

本文通过PLDA算法挖掘文章的主题，通过主题权重的聚类，实现新闻自动分类。包括了分词、词型转换、停用词过滤、主题挖掘、聚类等流程。

二、数据集介绍

具体字段如下：

字段名	含义	类型	描述
category	新闻类型	string	体育、女性、社会、军事、科技等
title	标题	string	新闻标题
content	内容	string	新闻内容

数据截图：

三、数据探索流程

首先，实验流程图：

实验可以大致分为五个模块，分别是增加序号列、停用词过滤、分词及词频统计、文本主题挖掘、结果分析和评估。

1.增加序号列

本文的数据源输入是以单个新闻为单元，需要增加ID列来作为每篇新闻的唯一标识，方便下面的算法进行计算。

2.分词及词频统计

这两步都是文本挖掘领域最常规的做法，首先利用分词控件对于content字段，也就是新闻内容进行分词。去除过滤词之后（过滤词一般是标点符号及助语），对于词频进行统计。
如下图：

3.停用词过滤

停用词过滤功能用于过滤输入的停用词词库，一般过滤标点符号以及对于文章影响较少的助语等。

4.文本主题挖掘

使用PLDA文本挖掘组件需要先将文本转换成三元形式，append_id是每篇新闻的唯一标识，key_value字段中冒号前面的数字表示的是单词抽象成的数字标识，冒号后面是对应的单词出现的频率。三元组组件生成结果如下：

在上一步完成了文本转数字的过程，下一步数据进入PLDA算法。PLDA算法又叫主题模型，算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题，PLDA有六个输出桩，第五个输出桩输出结果显示的是每篇文章对应的每个主题的概率。如图：

5.结果分析和评估

上一步把文章从主题的维度表示成了一个向量。接下来就可以通过向量的距离实现聚类，从而实现文章分类。我们这里可以简单看一下分类的结果。查看K均值聚类组件的结果，cluster_index表示的是每一类的名称。找到第0类，一共有docid为115，292，248，166四篇文章。

通过过滤与映射组件查询115，292，248，166四篇文章。结果如下：

效果并不十分理想，将一篇财经、一篇科技的新闻跟两个体育类新闻分到了一起。主要原因是细节的调优没有做，也没有做特征工程，同时数据量太小也是一个主要的因素。本文只是一个简单的案例，商业合作可以私下联系我们，我们在文本方面我们有较完善的解决方案。

四、其它

作者微信公众号(与作者讨论)：

免费体验：阿里云数加机器学习平台

联系我们: aohai.lb@alibaba-inc.com

往期文章：

【玩转数据系列一】人口普查统计案例

【玩转数据系列二】机器学习应用没那么难，这次教你玩心脏病预测

【玩转数据系列三】利用图算法实现金融行业风控

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

【玩转数据系列五】农业贷款发放预测

时间： 2024-12-31 23:24:44

【玩转数据系列六】文本分析算法实现新闻自动分类的相关文章

【机器学习PAI实践七】文本分析算法实现新闻自动分类

一.背景新闻分类是文本挖掘领域较为常见的场景.目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源.本文尝试通过智能的文本挖掘算法对于新闻文本进行分类.无需任何人肉打标,完全由机器智能化实现. 本文通过PLDA算法挖掘文章的主题,通过主题权重的聚类,实现新闻自动分类.包括了分词.词型转换.停用词过滤.主题挖掘.聚类等流程. 二.数据集介绍具体字段如下: 字段名含义类型描述 category 新闻类型 string 体育.女性.社会.军事.科技等

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分背景如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金

【玩转数据系列八】机器学习算法的离线调度实现-广告CTR预测

机器学习实验部署和调度产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 (因为模板功能限制,本实验需要用户自行上传分区表数据.) (本文数据为虚构,仅供实验.本实验拟在介绍阿里云机器学习与大数据开发调度的配合.) 一.背景本文实现的场景是广告的CTR预测.广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放.整套实

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练背景我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

【玩转数据系列十四】如何通过PAI实现云端实时心脏状况监测

背景我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见https://yq.aliyun.com/articles/54260.通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率.那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的在线预测服务帮您实现.目前,机器学习PAI已经支持实验模型一键部署到云端生成API,通过向这个API推送用户的实时体检数据,就可以实时拿到反馈结果,做到心脏状况的云端的

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

(本文数据为实验用例) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景母亲是老师反而会对孩子的学习成绩造成不利影响?能上网的家庭,孩子通常能取得较好的成绩?影响孩子成绩的最大因素居然是母亲的学历?本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些. 本文的数据采集于某中学在校生的家庭背景数据以及在校行为数据.通过逻辑回归算法生成离线模型和学业指标评估报

【玩转数据系列一】人口普查统计案例

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘数据中的价值.本系列文章包含详细的实验流程以及相关的文档教程,欢迎大家进入阿里云数加机器学习平台体验.实验案例请在新建实验页签查看,如下图. 二.数据集介绍数据源: UCI开源数据集Adult 针

【玩转数据系列二】机器学习应用没那么难，这次教你玩心脏病预测

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用.本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例. 二.数据集介绍数据源: UC

猜你喜欢

安卓-fragment中额外加入时间选择器dialog的布局

问题描述 fragment中额外加入时间选择器dialog的布局 public class ReleaseFragment extends Fragment implements View.OnTou ...

备份虚拟主机数据的办法

备份|数据|虚拟主机一般来说虚拟主机备份数据库是一件比较麻烦的事情.为了方便,我自己写了一个简单的办法用于备份MYSQL的数据库.PHP代码: <?/*** 虚拟主机备份程序* 编程:Boba ...

ASP双联动列表菜单类

菜单 <%'****************************************'类名:双联动菜单类'**************************************** ...

RDA实现SQL CE与SQL Server间数据存取

本文介绍如何利用 RDA(RemoteDataAccess远程数据存取)实现掌上电脑Pocket PC(简称PPC)上的SQL Server CE 2.0与桌面SQL Server 2000数据库间的 ...

Photoshop绘制盛有红酒的玻璃酒杯技巧

玻璃器皿都是透明的,只有边缘及底部部分有一些明显的暗部.制作的时候重点需要把这些边缘的暗部及高光渲染出来,再加上中间的一些反光和环境色等即可. 最终效果 <点小图查看大图> 1.先来分解玻 ...

Windows Install Clean Up 安装步骤

在安装会声会影时,大家可能会遇到安装失败的情况,失败的原因之一就是前一次的会声会影卸载不彻底,这时我们就需要Windows Install Clean Up来进行清理工作.我们将给大家介绍Wind ...

SSD ReadyCache最简单的电脑加速方案

固态硬盘的出现,才让电脑真正进入到高速发展的时代,以前电脑无论配置多牛逼总被机械硬盘拖后腿了,就因为转速慢导致性能低,启动软件等啊等,现在有了固态硬盘当系统盘和缓存盘,可以解决这问题咯. 固态硬盘 ...

PS教你打造心中的梦幻女神

预览: 第一步新建一个文件,大小为1416*1416,具体信息如下: 第二步置入Dark clouds ahead这张图. 第三步添加调整图层(图层>新建调整图层)亮度/对比度,设置数 ...

Win7下文件无法复制粘帖键盘与鼠标都无效的解决方法

Win7系统下复制粘贴估计是小编每天都要接触到的操作,使用鼠标.键盘就可以很快的完成.不过今天小编遇到了一件奇怪的事情,对文件夹执行了复制操作后却无法进行粘贴,键盘无法粘贴,鼠标右键粘贴选项也变成 ...

定时任务发展史(一)

定时任务是互联网行业里最常用的服务之一,本文给大家介绍定时任务在我司的发展历程. linux系统中一般使用crontab命令来实现,在Java世界里,使用最广泛的就是quartz了.我司使用quart ...

SplitContainer容器控件左右Panel大小调整

1.新建一个Winform窗体,从上图中选择SplitContainer空间,拖拽到Form到上,如下图: 2.你会发现,随便点击Panel1或者Panel2,会显示出粗框,但怎么调整两个Panel的 ...

WordPress中限制非管理员用户在文章后只能评论一次_php技巧

之前有网友提出,在WordPress中有没有办法实现每篇文章只允许用户评论一次? 暂不说这个需求有没有用,毕竟WordPress就是给有各种需求的人用的.这个功能实现起来也比较简单,只需每次用户发表的 ...

android接收到图片url如何处理？

问题描述用环信实现android通信,今天遇到这个问题,收到对方发来的图片,我也可以获取LocalUrl,RemoteUrl(),getThumbnailUrl(),但我不知道要如何处理它们才能得到 ...

如何理解java当中的链式方法，需要new关键词吗，如何区分匿名对象，

问题描述如何理解java当中的链式方法,需要new关键词吗,如何区分匿名对象, 如何理解java当中的链式方法,需要new关键词吗,如何区分匿名对象和链式方法A( ).B( )=?new A( ). ...

中国当不了拯救世界经济的救世主

2008年金融危机爆发以后,很多人都在猜测世界经济复苏的轨迹.有人说可以将V字型反转,有人说恐怕得形成U字型回暖,也有人说大概会有W字型的双底出现.当然,最悲观的要算所谓的L字型,复苏遥遥无期,属于底 ...

我国将发布个人信息安全保护专项国家标准

本报讯在近日举行的2012中国个人信息保护大会上,中国软件评测中心常务副主任.赛迪评测总裁黄子河表示,<信息安全技术个人信息保护指南>已形成标准草案,从去年正式通过了评审报批为http: ...

产品经理都应人手一本的书

在距离腾讯深圳总部几百公里之外的广州研发部里面,有个奇人,他衣着朴素,面颊削瘦,语速平缓.而且媒体记者一般很难见到他,不过如果某个话题触动到他,交谈的时候也会变得异常顺利.而这个人就是腾讯公司的高级副 ...

《算法导论（原书第3版）》一思考题

思考题 3-1 (多项式的渐近行为) 假设p(n)=∑di=0aini是一个关于n的d次多项式,其中ad>0,k是一个常量.使用渐近记号的定义来证明下面的性质. a.若k≥d,则p(n)=O(n ...

调试-Debug Current Instruction Pointer

问题描述 Debug Current Instruction Pointer 断点并没有设在当前位置,但是只要走debug就会停在这儿,已经反复删除所有断点好几次了,eclipse也重启过,求大神指导 ...

关于treeview在showmodeldialog教本弹出窗口中的运用

问题描述在页面中添加控件treeview,然后在另一张页面中调用脚本函数:showmodeldialog打开该页面,当选中treeview控件的节点时,会弹出一个新的页面,页面的地址栏显示的是脚本函 ...

《PhoneGap移动应用开发手册》——导读

目录第1章移动与定位:使用加速计和位置传感器 1.1 简介 1.2 使用加速计检测设备的移动 1.3 调整加速计传感器更新时间间隔 1.4 通过加速计事件更新对象的显示位置 1.5 获取设备位置 ...

有限竞争推动微博股价飙升175% 市值快速逼近Twitter

微博北京时间10月14日消息,外媒刊文称,微博主导着中国社交媒体市场,这一地位支撑着该公司的营收前景.有限的竞争推动微博股价飙升175%,市值快速逼近Twitter.相比之下,Twitter面临Fa ...

AE xaml中定义的控件，在xaml.cs中无法用名称调用

问题描述这是页面的代码:<Windowx:Class="WpfApplication2.MainWindow"xmlns="http://schemas.micr ...

美国少女每天平均发80条短信

根据美国一家市调公司Pew最近针对青少年所作的一项调查显示,在美国12-17岁的青少年中,有3/4均拥有一部手机,在这些手机用户中,女性每天使用手机发送的短信平均数量已经达到了80条,而男性的平均发送 ...

保存信息-Android 关于界面信息如何保存

问题描述 Android 关于界面信息如何保存 Android现在有三个界面输入信息 A->B->C,现在填写到C界面,想回去看B界面的信息,如何保证C界面填写的信息不会丢失? 解决方案 ...

未来富豪，将出自这12大颠覆性领域

关于福布斯美国400富豪榜有几点相当有趣:唐纳德· 特朗普(Donald Trump)的财富落后于120名亿万富豪,其中多数同特朗普不同,他们都是从零开始创立自己的公司.1985年,特朗普在福布斯美国 ...

学历门事情引名人自发纠错

虽然唐骏学历门事件,没有最后的定论,但是现在刮起的一股"纠错之风"却吹遍了整个网络. 不光仅仅是涉及唐骏传记出版的出版社以及作者纷纷发出了勘误的声明,还有不少的曾拥有西太平洋学历的 ...

解析jdbc处理oracle的clob字段的详解_oracle

import java.io.BufferedOutputStream;import java.io.ByteArrayInputStream;import java.io.IOException;i ...

搜索引擎如何识别原创和伪原创

1.文章发布时间:相同的一篇文章,发布并且被搜索引擎收录的时间越早,越容易被搜索引擎认为是原创文章. 2.文章锚文本连接:相同的一篇文章,被各个网站相互转载,如果有文章内部的锚文本连接都指向同一个网站 ...

如何提升网站关键词的价值

一.挖掘关键词搜索用户群网站关键词好不好,有没有价值,全看有没有用户搜索这些词,搜索量大不大,针对性强不强等等.所以,对于提升网站关键词的价值,自然就首先要分析搜索这些关键词的用户群了,通过挖掘出这 ...

热搜