以电影影评为例,利用Neo4j对电影评论进行深度学习的情感分析

【编者按】随着互联网的发展,用户从以前的“读”网页转变为“写”网页,互联网上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息,而随着网络上评论信息爆炸式的增长,以人工的方法很难应付海量评论信息的收集和处理,情感分析技术随之产生,本文以电影影评为例,利用Neo4j对电影评论进行深度学习的情感分析。

一个电影评论网站允许用户提交关于他们针对某部电影是喜欢还是不喜欢相关信息的评论。充分挖掘这些评论继而生成有价值的元数据(针对相关内容的)将给我们提供一个难得的机会,它可以让我们以一个大众化的方式来理解用户对于这部电影的情感,这是一件很酷的事情。我们可以对主观内容做出一个客观的分析,这样可以使我们能够更好地理解产品和服务的趋势,可以为消费者做出更好的决策。

情感分析的数据模型

实现这些的主要障碍是我们的结构和转换数据。当前最先进的技术包括Naive Bayes、Support Vector Machines以及Maximum Entropy。这些技术实施的挑战仍然是如何以最小的性能代价从文本中提取特征和结构化数据,这就是我决定要集中精力解决的问题。

我使用特征选择算法(详情点击这里),利用图形数据库Neo4j来解决数据转换和可用性的挑战,而最先进的自然语言解析算法的重点是关注句子结构,我决定为自然语言Grammar induction设计一个统计方法,主要是针对巨大文本语料库的概括,生成新特性,使用深度学习预测当下特性左边或右边的概率最高的新特性。

基于图形的NLP实例

我假设短语“one of the worst”作为一组文本的特征已经被提取。这个词提取的原因是这个短语有最大的统计学相关性,这意味着这个短语在父短语之后有最佳的匹配机会。使用Neo4j我们可以确定产生这一词的继承特性。

从根节点开始,它被加上“{0 } { 1 }”,路径里面” one of the worst “将被解析为(the)->(ofthe)->(one of the)->(one of the worst)。

这样的层次结构将会扩展为更多的可能性,如下图显示:

这种特征选择算法可以在不到一秒钟的时间从文本语料库中选择提取概率最大的相关特性和短语。这种技术对于情感分析具有非常重要意义的原因是这些模式节点可以连接到他们训练过的文本标签上,如下所示。

该算法的结果是任何自然语言文本可以在秒级解析,生成一个可用于任何分类算法的子图。这在很大程度上要归功于Neo4j图遍历。

开放源码演示

针对电影评论的例子,我选择了500个影评,包括正面和负面的标签,使用Graphify训练一个自然语言解析模型。在下一篇博文中,我将向你介绍展示如何做到比人类更好地电影评论分类,人类分类错误率为30%。

如果你想一睹为快,请点击Graphify Sentiment Analysis for Movie Reviews。

原文链接:Deep Learning Sentiment Analysis for Movie Reviews using Neo4j (编译/魏伟 审校/仲浩)

时间: 2024-10-22 23:07:34

以电影影评为例,利用Neo4j对电影评论进行深度学习的情感分析的相关文章

Arimo利用Alluxio的内存能力提升深度学习模型的结果效率(Time-to-Result)

深度学习算法通常被一些具体应用所采用,其中比较显著的应用领域包括计算机视觉.机器翻译.文本挖掘.欺诈检测等.深度学习的方法在大模型加大数据的场景下效果显著.与此同时,被设计用来处理大数据的分布式计算平台(如Spark)也日益应用广泛.因此,通过在Spark平台上开发深度学习计算框架,深度学习的应用领域可以变得更加广泛,企业完全可以在已有的Spark基础设施上使用深度学习. 1.利用Alluxio协处理器进行基于Spark的分布式深度学习 在2015 Strata + Hadoop World N

金山截获首例利用IE极风0day漏洞挂马传播案例

新华网天津3月13日电(记者张建新)金山安全实验室13日发布高危漏洞红色安全预警,12日上午8点39分,金山安全实验室截获国内首例利用IE极风0day漏洞进行挂马传播的案例.这也表示IE极风0day漏洞在被发现后的短短3天时间里,已经开始被黑客利用进行传播病毒. 专家说,由于之前出现的IE极光漏洞补丁已经被全面封堵,因此极风漏洞很可能瞬间替换极光,成为黑客进行挂马传播病毒的重要渠道,有可能引发互联网新一轮病毒攻击. 3月10日,金山安全实验室国内首家宣布微软IE浏览器再曝新0day漏洞,同日,针

云南省首例利用互联网非法销售香烟的案件

如今网络购物是越来越方便了,可网上不是想卖什么就能卖的,前些天就有几个人动起了歪脑筋,在淘宝网上无证销售烟草.据悉,这是警方查获的云南省首例利用互联网非法销售香烟的案件. 两个多月前,东华派出所民警接到线报,淘宝网上有人用香烟标识.打火机.烟灰缸等作为暗号,非法销售香烟.随后警方展开排查,最终找到了位于世博路附近某小区的销售窝点. 昨日上午,东华派出所民警.昆明市烟草专卖局等部门工作人员来到该销售窝点隐藏在地下室的仓库时,成箱的香烟堆在角落,满地散落着发货单,而堆放香烟的旁边,有一个还未来得及发

吴恩达 NIPS 2016:利用深度学习开发人工智能应用的基本要点(含唯一的中文版PPT)

雷锋网按:为了方便读者学习和收藏,雷锋网(公众号:雷锋网)特地把吴恩达教授在NIPS 2016大会中的PPT做为中文版,由三川和亚峰联合编译并制作. 今日,在第 30 届神经信息处理系统大会(NIPS 2016)中,百度首席科学家吴恩达教授发表演讲:<利用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning)>. 此外,吴恩达教授曾在今年 9 月 24/25 日也发表过同为<Nuts a

情感分析教程+心法!如何用 Apache MXNet 看懂电影影评

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 情感分析已经在数据科学界占有一席之地.企业可以在社交媒体上对其产品的评价,并主动出击,解决满意度问题.不过,人类的情感和语言非常复杂,机器学习的各种技术中,就数深度学习最有能力处理这些复杂的输入数据. 这份教程中,我们将使用 Apache MXNet 打造神经网络,目的是创造一个电影影评的分类器,能够根据一段简评判断作者对电影的评价是好是坏.之所以选择 Apache MXNet 而不是 TensorFlow等

独家专栏 | 如何利用深度学习搭建一个最简单的无人驾驶系统

雷锋网按:本文为雷锋网独家专栏,作者系佐思产研研究总监周彦武,雷锋网(公众号:雷锋网)经授权发布. 国内最牛的无人驾驶厂家的运算平台是这样的: 一个英特尔至强 E5 的 CPU,拥有 12 内核,30MB 的二级缓存,运算能力为 400GOPS/s,功率消耗为 400 瓦(应该是第一代至强 E5,目前 E5 最高功率消耗都不超过 180 瓦),八个英伟达的 K80 GPU,每一个 K80 的运算能力为 8TOPS/s,通过 PCI-E 连接,每一个 K80 的功率消耗为 300 瓦,合计是 28

《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译

2.27 利用深度学习改进统计机器翻译 利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] .翻译模型 [2] .调序模型 [3] .词语对齐[4]等. 深度学习能够帮助机器翻译缓解数据稀疏问题.以语言模型为例.语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响,是机器翻译中的核心模块.传统的语言模型采用 n-gram方法,通过极大似然估计训练模型参数.由于这种方法采用离散表示(即每个词都是独立的符号),极大似然估计面临着严重

深度 | 为什么要利用NLP做情感分析?

多数人不能准确把握人类的情感变化,我也不例外,但是计算机却可以做到这一点.基于上面的事实,我们要讲述一件你也许已经熟知的机器学习分支--自然语言处理(NLP),这听起来很像计算机试图学习并理解我们平时说的"自然语言".但是我们并不满足于此,我们要做一件神奇的事,那就是"情感分析".听到计算机能分析人类情感这件事,很多人肯定会觉得有些不可思议,但这正是我们下面要谈论的. 自然语言处理 我们稍微回顾一下,很多程序员都知道人与人和人与计算机交流的方法有很大的区别.例如,当

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度