并行化的情感分类算法的研究

并行化的情感分类算法的研究

余永红 向小军  商琳

在海量数据集上执行情感分类任务时,传统的单机情感分类算法的扩展性成为系统的瓶颈。在云计算平台Hadoop上,实现了情感分类任务中特征提取、特征向量加权和情感分类等算法的MapReduce化。在情感语料数据集上,对各种子步骤组合下情感分类算法的精度及每种算法的时间开销进行了对比分析。实验结果验证了实现的并行化情感分类算法的有效性,同时它为用户选择合适算法实现情感分类任务提供了有价值的参考信息。

并行化的情感分类算法的研究

时间: 2024-09-23 18:07:07

并行化的情感分类算法的研究的相关文章

Netflix工程总监眼中的分类算法:深度学习优先级最低

英文原文:What are the advantages of different classification algorithms?(翻译/王玮编辑/周建丁) [编者按]针对 Quora 上的一个老问题:不同分类算法的优势是什么?Netflix 公司工程总监 Xavier Amatriain 近日给出新的解答,他根据奥卡姆剃刀原理依次推荐了逻辑回归.SVM.决策树集成和深度学习,并谈了他的不同认识.他并不推荐深度学习为通用的方法. 不同分类算法的优势是什么?例如有大量的训练数据集,上万的实例

数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析

分类算法总结

决策树分类算法 决策树归纳是经典的分类算法. 它采用自顶向下递归的各个击破方式构造决策树. 树的每一个结点上使用信息增益度量选择测试属性. 可以从生成的决策树中提取规则. KNN法(K-Nearest Neighbor): KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法. 该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 该方法在定类决策上只依据最邻近的一个

一种效率极高的分类算法(转--非常好,帮助很大对于想做好asp的朋友)

算法 分类算法要解决的问题在网站建设中,分类算法的应用非常的普遍.在设计一个电子商店时,要涉及到商品分类:在设计发布系统时,要涉及到栏目或者频道分类:在设计软件下载这样的程序时,要涉及到软件的分类:如此等等.可以说,分类是一个很普遍的问题. 我常常面试一些程序员,而且我几乎毫无例外地要问他们一些关于分类算法的问题.下面的举几个我常常询问的问题.你认为你可以很轻松地回答么^_^. 1.分类算法常常表现为树的表示和遍历问题.那么,请问:如果用数据库中的一个Table来表达树型分类,应该有几个字段?2

一种效率极高的分类算法

算法 分类算法要解决的问题在网站建设中,分类算法的应用非常的普遍.在设计一个电子商店时,要涉及到商品分类:在设计发布系统时,要涉及到栏目或者频道分类:在设计软件下载这样的程序时,要涉及到软件的分类:如此等等.可以说,分类是一个很普遍的问题. 我常常面试一些程序员,而且我几乎毫无例外地要问他们一些关于分类算法的问题.下面的举几个我常常询问的问题.你认为你可以很轻松地回答么^_^. 1.分类算法常常表现为树的表示和遍历问题.那么,请问:如果用数据库中的一个Table来表达树型分类,应该有几个字段?2

介绍一种效率极高的分类算法

算法 在网站建设中,分类算法的应用非常的普遍.在设计一个电子商店时,要涉及到商品分类:在设计发布系统时,要涉及到栏目或者频道分类:在设计软件下载这样的程序时,要涉及到软件的分类:如此等等.可以说,分类是一个很普遍的问题. 我常常面试一些程序员,而且我几乎毫无例外地要问他们一些关于分类算法的问题.下面的举几个我常常询问的问题.你认为你可以很轻松地回答么^_^.1. 分类算法常常表现为树的表示和遍历问题.那么,请问:如果用数据库中的一个Table来表达树型分类,应该有几个字段?2. 如何快速地从这个

爱贝芙之百度关键词拆分算法排名研究(一)

百度关键词拆分俗称又称为关键词匹配.而匹配一般分为完全匹配和部分匹配.这是对于百度或谷歌收录排名而言,不是针对网站制作的切词.其中这两种匹配方式又分很多的地方,比如title标题的完全匹配和不完全匹配,描述的完全匹配和不完全匹配.网站关键词布局的完全匹配和不完全匹配等等. 这其中又有很多组合,比如标题完全匹配,但描述又是不完全匹配;标题不完全匹配而描述又完全匹配.关键词组合情况很多,至少能有四种: 1.标题与描述中的关键词完全匹配 2.标题的显示的关键词是完全匹配的,而描述是不完全匹配的 3.标

并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用

今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 +  Mahout0.6(0.8和0.9版本都不包含该算法.Mahout0.6可以和Hadoop2.2.0和平共处有点意外orz) 部分输入数据,输入数据一行代表一个购物篮: 4750,19394,25651,6395,5592 26180,10895,24571,23295,20578,27791,2729,8637 7

数据挖掘系列(7)分类算法评价

一.引言 分类算法有很多,不同分分类算法又用很多不同的变种.不同的分类算法有不同的特定,在不同的 数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一 个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法. 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好.比如某 个地区某天地震的预测,假设我们有一堆的特征作为地震分类的属性,类别只有两个:0:不发生地震 .1:发生地震.一个不加思考的分类器