如何用KNIME进行情感分析 | 下

如何能够让机器“读懂”人的情感?情感分析提供了解决的一个思路。这也使得它成为自然语言分析(Natural Language Processing)中最令人神往的山对面的“风景”。

什么是情感分类(sentiment classification)

简单说,就是对于一句或一段话,判断说话者的情感,是正向(积极)的,还是负向(消极)的。这种情感分类任务可以看作一个二分类问题。

完成情感分类的核心问题

决定分类准确率的关键在于特征的选取与语料的质量。其中特征问题解决的是:用什么样的特征来抽取,得到的文本才足够原始呢?每个词看似已经是文本的足够底层的特征,但其实也是经过高度抽象的。这也会给深度学习在自然语言领域的应用带来一些困难。同样,这也是提高模型准确度的一个有效的方法。

在上一篇情感分析的讲解中,我们已经知道如何使用KNIME构造一个情感分析模型。这一篇中,我们将使用N元语法(N-gram),借助KNIME来探究如何选取词语特征,获得的模型能够实现更准确地分类。

N元语法

在计算语言学中,n-gram指的是文本中连续的n个item。n-gram中如果n=1则为unigram,n=2则为bigram,n=3则为trigram。n>4后,则直接用数字指称,如4-gram,5gram。(Wikipedia)

以 I would like to go to Beijing. 这句话为例。

bigram为:

  • I would
  • would like
  • like to
  • to go
  • go to
  • to Beijing


结点概览

1.读取CSV格式文件

使用CSV reader结点读取一个CSV格式文件,该文件写入了1500条载于IMBD上的影评,并且给出了情感向量即POS(positive)和NEG(negative)。

2.字符串转化为文档格式

接下来将字符串转化为文档格式,继而使用“过滤”节点删除无关列,使文件只留下储存文档对象的一列。


以上结点内属于Document creation元结点

3.数据预处理

首先计算特征词语需要在文档中出现最小次数N。利用java语句计算:out_MinDF = (Number_Rows / 100) * Min_Percentage

继而进行删除标点,删除数字,删除文档中出现次数小于N的词汇,将大写转化为小写,提取词语主干(stemmed)和删除停用词(stop word)。至此我们可以完成预处理。但是由于我们想探索的是双词分类与单词分类的效果差异,所以这里花开两朵各表一枝,双词分类的这一支不需要做主干提取和停用词删除的工作。

(stemmed意指将词的变形归类,使得机器在处理文本时减少需要跟踪的独特词汇,这会加快“标签化”处理的过程。停用词是人类语言中没有实际意义或功用的词语,如助词,限定词等)

4.通过单词或双词建立文本特征向量

想象在一个巨大的文档集合,里面一共有M个文档,而文档里面的所有单词提取出来后,一起构成一个包含N个单词的词典,利用词袋(Bag-of-words)模型,每个文档都可以被表示成为一个N维向量(将每篇文档表示为一个向量,每一维度代表一个词语,其数值代表词语在该文档中的出现次数)。这样,就可以利用计算机来完成海量文档的分类过程。

一般来说,太多的特征会降低分类的准确度,所以需要使用一定的方法,来“选择”出信息量最丰富的特征,再使用这些特征来分类。

特征选择遵循如下步骤:

  • 1. 计算出整个语料里面每个词的信息量
  • 2. 根据信息量进行倒序排序,选择排名靠前的信息量的词
  • 3. 把这些词作为特征

5.构建模型

通过决策树算法构建模型在上一篇已经讲过,需要注意的是本篇需要对1-gram特征和1-gram 2-gram集合特征分别构建模型,以进行比较。这里不再赘述。

6.ROC曲线对比

在文档向量集创建后,词汇的情感分类已经被提取出来,系统自动创建了两种预测模型并打分。一个模型基于一个单独词汇的特征建立,第二个模型基于1-gram和2gram集合的特征。接着通过ROC接收器操作特性曲线(receiver operating characteristic curve)对这两个进行比较。

可以看出,在分析影评这一文本的情感态度时,使用N元语法构建出来的情感分类模型,诊断准确度更高,为85.05%。这样有助于我们针对“何种情感分类模型对NLP分析更为有效”这一问题时做出决策。

本文作者:邵海涵 周亚楠

来源:51CTO

时间: 2024-10-11 22:55:12

如何用KNIME进行情感分析 | 下的相关文章

手把手教你如何用 Python 做情感分析

商品评论挖掘.电影推荐.股市预测--情感分析大有用武之地.本文帮助你一步步用Python做出自己的情感分析结果,难道你不想试试看? 需求 如果你关注数据科学研究或是商业实践,"情感分析"(sentiment analysis)这个词你应该不陌生吧? 维基百科上,情感分析的定义是: 文本情感分析(也称为意见挖掘)是指用自然语言处理.文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息. 听着很高大上,是吧?如果说得具体一点呢? 给你一段文本,你就可以用情感分析的自动化方法获得这一

情感分析教程+心法!如何用 Apache MXNet 看懂电影影评

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 情感分析已经在数据科学界占有一席之地.企业可以在社交媒体上对其产品的评价,并主动出击,解决满意度问题.不过,人类的情感和语言非常复杂,机器学习的各种技术中,就数深度学习最有能力处理这些复杂的输入数据. 这份教程中,我们将使用 Apache MXNet 打造神经网络,目的是创造一个电影影评的分类器,能够根据一段简评判断作者对电影的评价是好是坏.之所以选择 Apache MXNet 而不是 TensorFlow等

如何用R进行文本内容的情感分析

一.关于文本内容的情感分析 一篇文章反映了什么态度?褒义还是贬义?肯定还是否定?喜怒哀乐愁,反映的是哪种情绪特征?对这些内容的分析就是情感分析,或者叫情感倾向分析.情感倾向 可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向.当然,有正常阅读能力的人,在看了一篇文章后能够判断文章的情感和极性,但这是主观体 验,不是量化数据.在对文章进行分析的时候,通常需要进行量化的分析,显得更加直观.客观. 情感分析基本上有两种方法,一种是极性分析,一种是情感类别分析.前者分析文章的总体态度是肯定还是

如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读. 甩锅の声明 1.本数据节选自新浪热门微博评论,不代表本人任何观点 2.本人不接受任何非技术交流类批评指责(夸我可以) 3.本次分析结果因技术问题存在一定误差(是引入的包的问题,不是我的) 4.本次选取热门微博为一个月以前的(翻译一下:热点已经冷了,我只是个写教程的) 顶锅盖逃 继上次更完"国庆去

Twitter是怎么做情感分析的?长文解读!

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 如今,微博已成为一种深受互联网用户欢迎的沟通工具.在那些提供微博服务的热门网站上,如Twitter.Tumblr和Facebook,每天都有数以百万的消息产生.这些消息的作者记录自己的生活,分享对不同话题的看法,并讨论当前的问题.由于消息格式不受限制以及微博平台易于访问,互联网用户倾向于从传统沟通工具(如传统的博客和邮件列表)转移到微博服务上来.随着越来越多的用户讨论自己使用的产品和服务,或表达自己的政治和宗教观点,微博网站已经

PaperWeekly 第十九期 --- 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)

引 本期的PaperWeekly一共分享四篇最近arXiv上发布的高质量paper,包括:情感分析.机器阅读理解.知识图谱.文本分类.人工智能及其相关研究日新月异,本文将带着大家了解一下以上四个研究方向都有哪些最新进展.四篇paper分别是: 1.Linguistically Regularized LSTMs for Sentiment Classification, 2016.11 2.End-to-End Answer Chunk Extraction and Ranking for Re

大数据舆情情感分析,如何提取情感并使用什么样的工具?(贴情感标签)

情感分析是学术领域研究多年的课题,用google学术搜索可以找到很多paper,基本的方法上有基于词典规则的方法.语言文法的方法,此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍). 各类paper是有一定的借鉴意义的,不过这主要是学术界在单个问题上的细化,要真正从研究领域落地到大数据的处理还有很多工作要做. 一.工程上的处理流程 工程上的处理流程具体包括以下几个方面: 1.情感分析任务的界定 在进行情感分析任务的界定时,要弄清楚工程的需求到底是什么:要分析文本的哪个层面上的情感,

《中国人工智能学会通讯》——6.21 情感分析应用系统

6.21 情感分析应用系统 在上述分析技术的支持下产生了大批基于情感分析的系统和应用.总体来看,它们应用在商品 / 服务评论分析.社交网络分析.情感机器人这三方面. 传统的情感分析应用聚焦于来自消费产品和服务的评论.基于产品评论的代表性平台有 GoogleShopping 5 ,它还可以为用户提供在线购物平台的商品检索和比价服务:OpinionEQ 6 允许商业组织和个人按需定制产品分析服务. 微博.Twitter 等社交网络服务的爆炸式发展也为研究人员带来了极大的机遇,研究人员能够通过分析大量

《中国人工智能学会通讯》——3.10 社会媒体情感分析:观点、用户、行为

3.10 社会媒体情感分析:观点.用户.行为 使用在线社会媒体进行大量交流是当今社会的一个突出现象,这种交流蕴含了人们分享生活中的感受,以及关于商品.书籍.电影等的评价.大量的.带有情感的社会媒体内容进一步激发了人们对情感分析研究的兴趣,并成为一种虚拟货币帮助企业营销产品.发现商机.维护声誉等.除了商业上的应用外,美国 2008 年的总统大选,也上演了一场史无前例地利用社会媒体 YouTube 和 Facebook进行筹集资金,向选民传递候选者的信息和说词的案例.麻省理工的研究者随后通过挖掘博客