【玩转数据系列十一】机器学习PAI眼中的《人民的名义》

一、背景


最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。

本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验:

  • 分词以及词频统计
  • 每一章的关键词提取
  • 每一章的文本摘要
  • 每一章文本之间的相似度分析

实验流程以及数据可以在阿里云机器学习PAI的社区直接使用,只要点击“去PAI平台创建”按钮即可在自己的项目下生成实验。社区部分截图:

社区地址:#

二、数据集介绍

数据源:本文数据为人民的名义部分剧集文本,一共分成1-9个章节。
具体字段如下:

字段名 含义 类型 描述
id 文章唯一标识 string 文章标识
content 文章内容 string 部分剧集内容

数据截图:

三、数据探索流程

首先,实验流程图:

1.分词以及停用词

分词是文本分析的基础,但是在“人民的名义”这样的文本中会有很多特有名词,是分词算法很难区分的。比如“侯亮平”、“沙瑞金”、“大风厂”等,所以我们需要在split word组件中加入一个词库,帮助分词组件可以对人名做正确的分词处理。加入的词库fufeitest.splite_w如下图:

另外,文本中一些“的”、“地”、“得”这样的助词以及各种标点符号也需要去掉,这些词是没有意义的,对文本分析有干扰,这些词可以通过“停用词过滤”组件去除。最终通过分词以及停用词过滤组件操作之后,文本内容被整理成了如下图形态:

2.关键词提取及词频统计

通过“词频统计”组件可以查看每一章中各个词语出现的频率,如图所示,id为1的文章中每个词语出现的次数:

“关键词”提取组件可以返回每个文章中关键的词语以及权重,(如果我们在停用词过滤那里处理的更细致,这部分效果会更好),通过这个结果可以看到每一章的关键人物有哪些,以及他们的权重排名:

3.文本摘要

“文本摘要”组件可以帮助您快速的浏览每一章节的关键内容,返回的是全文最关键的句子,我这里设置的是返回前三关键的句子:

截取的是第9章的摘要内容,如果看过这个剧,通过这个摘要可以大致了解到这是在讲汉东省委关于干部任用的会议的那一集。

4.相似文章分析

通过“Doc2Vec”组件可以将文本文章映射成高维向量化,将文本按照语义变成数学向量,结果如下:

然后可以通过"语义向量距离"组件挖掘出不同文章向量的距离,这里面的隐含关系是文章向量距离越近,那么语义越相近。我们以第9章为例:

第9章与第8章的向量距离最小,言外之意就是这两章的语义相近,这一点也比较容易理解,因为相连的两章在意义上肯定上是有一定的关联性。

四、总结

本文通过对“人民的名义”部分章节文本的分析,帮助大家了解机器学习PAI上面的部分文本算法的用法。如果向更深入的了解相关的内容,欢迎到PAI的社区来讨论,我们会定时组织活动。

作者微信公众号(与作者讨论):

产品页:阿里云数加机器学习平台

时间: 2024-08-02 22:10:29

【玩转数据系列十一】机器学习PAI眼中的《人民的名义》的相关文章

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练 背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金

【玩转数据系列十四】如何通过PAI实现云端实时心脏状况监测

背景 我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见https://yq.aliyun.com/articles/54260.通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率.那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的在线预测服务帮您实现.目前,机器学习PAI已经支持实验模型一键部署到云端生成API,通过向这个API推送用户的实时体检数据,就可以实时拿到反馈结果,做到心脏状况的云端的

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

【玩转数据系列二】机器学习应用没那么难,这次教你玩心脏病预测

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景 心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用.本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例. 二.数据集介绍 数据源: UC

【玩转数据系列八】机器学习算法的离线调度实现-广告CTR预测

机器学习实验部署和调度 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 (因为模板功能限制,本实验需要用户自行上传分区表数据.) (本文数据为虚构,仅供实验.本实验拟在介绍阿里云机器学习与大数据开发调度的配合.) 一.背景 本文实现的场景是广告的CTR预测.广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放.整套实

【玩转数据系列七】有娃的注意了,机器学习教您如何提高孩子学习成绩

(本文数据为实验用例) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景 母亲是老师反而会对孩子的学习成绩造成不利影响?能上网的家庭,孩子通常能取得较好的成绩?影响孩子成绩的最大因素居然是母亲的学历?本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些. 本文的数据采集于某中学在校生的家庭背景数据以及在校行为数据.通过逻辑回归算法生成离线模型和学业指标评估报

【玩转数据系列五】农业贷款发放预测

(本文数据为虚构,仅供实验) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景 很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还.农业贷款发放问题是一个典型的数据挖掘问题.贷款发放人通过往年的数据,包括贷款人的年收入.种植的作物种类.历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力.本文借助真实的农业贷款业务场景,利用回归

【玩转数据系列六】文本分析算法实现新闻自动分类

(本文数据为虚构,仅供实验.本实验拟在介绍文本类组件,具体有意实现效果的提升请联系我们,我们提供完整解决方案和商业合作.) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景 新闻分类是文本挖掘领域较为常见的场景.目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源.本文尝试通过智能的文本挖掘算法对于新闻文本进行分类.无需任何人肉打标,完全由机器