机器学习实现海量新闻自动分类

通过最佳实践帮助您实现上述案例效果

Step1:数据导入MaxCompute

1.1 创建需要上传的本地数据

新闻文本表:

字段名

含义

类型

描述

category

新闻类型

string

体育、女性、社会、军事、科技等

title

标题

string

新闻标题

content

内容

string

新闻内容

源数据:nlp_use

stop_words表:

字段名

含义

类型

描述

point

用户名

string

stop_words

标点符号

string

" " ,等

源数据:stop_words

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通MaxCompute,选择按量付费进行购买。

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台,前面开通MaxCompute成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击“管理控制台”。

步骤2: 创建项目。付费模式选择I/O后付费,输入项目名称:

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击对应项目操作栏中的进入工作区

1.2.3 创建表

点击菜单数据管理,右上新建表

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项,点击下一步

在新建表页面中填写字段和分区信息的各配置项

1.2.5 点击提交

新建表提交成功后,系统将自动跳转返回数据表管理界面,点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台,点击对应项目的进入工作区,点击菜单数据开发-->导入-->导入本地数据

选择目标表,并选择字段匹配方式,点击导入

文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据

同样方法创建stop_words表

注意:如果原始字符集设GBK中文出现乱码,可改为UTF-8

Step2:机器学习中的数据准备

进入机器学习管理控制台,点击对应项目的进入机器学习

选择需要的租户及工作空间,点击“提交”

进入机器学习页面后,右击我的实验点击新建空白实验,输入实验名和实验描述

切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表

切换到字段信息栏,可以查看输入表的字段名、数据类型和前100行数据的数值分布

Step3:数据探索流程

实验流程图:

3.1 增加序号列

本文的数据源输入是以单个新闻为单元,需要增加ID列来作为每篇新闻的唯一标识,方便下面的算法进行计算。

3.1.1 增加序列号

切换至组件栏,向画布中拖入数据合并-->增加序号列,将nlp_use源表的输出与增加序号列连接,点击增加序号列,在右侧字段设置中进行填写

右击增加序列号点击执行后,查看数据

3.1.2 类型转换

向画布中拖入数据合并-->类型转换,将增加序号列输入到类型转换中,点击类型转换,在右侧选择字段

右击类型转换点击执行后,查看数据

3.2 分词及词频统计

这两步都是文本挖掘领域最常规的做法,首先利用分词控件对于content字段,也就是新闻内容进行分词。去除过滤词之后(过滤词一般是标点符号及助语),对于词频进行统计。

3.2.1 分词

切换至组件栏,向画布中拖入文本分析-->Split Word,将类型转换的输出连接到Split Word的输入数据表中,点击Split Word,在右侧设置字段

右击Split Word点击执行后,查看数据

3.2.2 词频统计

切换至组件栏,向画布中拖入文本分析-->词频统计

3.3 停用词过滤

停用词过滤功能用于过滤输入的停用词词库,一般过滤标点符号以及对于文章影响较少的助语等。

3.3.1 添加读数据表

切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表

右击读数据表点击执行,查看数据

3.3.2 停用词过滤

切换至组件栏,向画布中拖入文本分析-->停用词过滤,将Split Word的输出和stop_words源表的输出分别与停用词过滤进行连接,点击停用词过滤,在右侧选择字段

右击停用词过滤点击执行,查看数据

3.3.3 词频统计

向画布中拖入文本分析-->词频统计,将停用词过滤的输出表与词频统计连接,在右侧设置字段

右击词频统计点击执行,查看数据

3.4 文本主题挖掘

使用PLDA文本挖掘组件需要先将文本转换成三元形式,append_id是每篇新闻的唯一标识,key_value字段中冒号前面的数字表示的是单词抽象成的数字标识,冒号后面是对应的单词出现的频率。

3.4.1 三元组转kv

切换至组件栏,向画布中拖入文本分析-->三元组转kv,将词频统计的三元组输出与三元组转kv的输入表连接,点击三元组转kv,在右侧设置字段

右击三元组转kv点击执行,查看数据

3.4.2 PLDA

在上一步完成了文本转数字的过程,下一步数据进入PLDA算法。PLDA算法又叫主题模型,算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题,PLDA有六个输出桩,第五个输出桩输出结果显示的是每篇文章对应的每个主题的概率。

切换至组件栏,向画布中拖入文本分析-->PLDA,将三元组转kv的输出表与PLDA连接,点击PLDA,在右侧进行字段和参数设置

右击PLDA点击执行后,查看数据

3.4.3 SQL脚本

向画布中拖入工具-->SQL脚本,将PLDA的第五个输出桩与SQL脚本连接,点击SQL脚本,在右侧写SQL语句

select * from ${t1};

右击SQL脚本点击执行后,查看数据

3.5 结果分析和评估

3.5.1 K均值聚类

上一步把文章从主题的维度表示成了一个向量。接下来就可以通过向量的距离实现聚类,从而实现文章分类。我们这里可以简单看一下分类的结果。查看K均值聚类组件的结果,cluster_index表示的是每一类的名称。找到第0类,一共有docid为115,292,248,166四篇文章。

向画布中拖入机器学习-->聚类-->K均值聚类,将SQL脚本的输出与K均值聚类的输入数据连接,点击K均值聚类,在右侧进行字段和参数设置

右击K均值聚类点击执行后,查看数据

3.5.2 过滤与映射

通过过滤与映射组件查询115,292,248,166四篇文章

向画布中拖入数据预处理-->采样与过滤-->过滤与映射,将类型转换中转换后的数据表输入到过滤与映射中,点击过滤与映射,在右侧写入过滤条件

append_id=292 or append_id=115  or append_id=248 or append_id=166 ;

右击过滤与映射点击执行后,查看数据

本文只是一个简单的案例,商业合作可以私下联系我们,我们在文本方面我们有较完善的解决方案。

时间: 2024-07-29 21:49:43

机器学习实现海量新闻自动分类的相关文章

【机器学习PAI实践七】文本分析算法实现新闻自动分类

一.背景 新闻分类是文本挖掘领域较为常见的场景.目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源.本文尝试通过智能的文本挖掘算法对于新闻文本进行分类.无需任何人肉打标,完全由机器智能化实现. 本文通过PLDA算法挖掘文章的主题,通过主题权重的聚类,实现新闻自动分类.包括了分词.词型转换.停用词过滤.主题挖掘.聚类等流程. 二.数据集介绍 具体字段如下: 字段名 含义 类型 描述 category 新闻类型 string 体育.女性.社会.军事.科技等

【玩转数据系列六】文本分析算法实现新闻自动分类

(本文数据为虚构,仅供实验.本实验拟在介绍文本类组件,具体有意实现效果的提升请联系我们,我们提供完整解决方案和商业合作.) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景 新闻分类是文本挖掘领域较为常见的场景.目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源.本文尝试通过智能的文本挖掘算法对于新闻文本进行分类.无需任何人肉打标,完全由机器

如何利用机器学习进行海量数据挖掘

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测.支付平台的欺诈交易监测等等.机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将笔者在 大 数据 技术实践时的一些经验与大家分享. 互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理.最初的做法是人为设定好一些规则,由机器来执行.比如明确指定计算机给男性. 30岁的用户推送汽车广告.很明显如此粗略的规则不会有好效果,因为对人群的定位不

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

阿里云数加产品家族图首次亮相

数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意! 数加官网访问地址:https://data.aliyun.com/ 高清图下载地址 [全球独家首发]阿里云数加大数据产品手册V1.0(纯附件) 陈鹏宇分享主题-数加:迈向数据智能之路 数加与客户的故事 借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品

微信“小程序" 未完, 数据的"小程序" 又来了

免费开通大数据服务:https://www.aliyun.com/product/odps 微信小程序是一种不需要下载安装即可使用的应用,它实现了应用"触手可及"的梦想,用户扫一扫或者搜一下即可打开应用.也体现了"用完即走"的理念,用户不用关心是否安装太多应用的问题.应用将无处不在,随时可用,但又无需安装卸载,非常方便. 在DT时代,数据人的小程序在哪里,今天我们介绍阿里云数加的数据市场:https://market.aliyun.com/data?spm=5176

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow.Caffe.MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.aliyun.com/product/learn [新手必读,请务必要开通OSS和MaxCompute]https://tianchi.aliyun.com/compe

大数据-新闻推荐系统中的推荐算法

问题描述 新闻推荐系统中的推荐算法 如何有一个算法是从大数据的新闻列表中通过内容找到自己想要的新闻呢?基于Hadoop的可以.求大神们给一些思路.不要关系型数据库的. 解决方案 [推荐系统算法]推荐引擎算法学习导论 解决方案二: google 协同过滤算法google 新闻推荐 解决方案三: 协同过滤算法http://www.cnblogs.com/zhangchaoyang/articles/2664366.html 解决方案四: 一般做新闻推荐有三种推荐策略:第一是热门推荐,可以设置一个时间