hadoop作业团队及作品介绍

团队介绍

大家好,我们是来自南京大学机器学习与数据挖掘研究所(LAMDA组)的“hadoop作业”团队。我们的队长是邹晓川同学,小组成员有郭训力、李涛和宋拴。我们都是南京大学2011级硕士研究生。在研一下学期,有幸参加黄宜华教授开设的《大规模">海量数据并行处理》的课程,让我们接触了hadoop,了解了hadoop。百度举行的比赛给我们一个一展身手的机会,所以,我们来了。谢谢!

赛题四:基于Hadoop的多分类支持向量机以及半监督学习在文本分类中的应用

基于Hadoop的多分类支持向量机

支持向量机(SVM)本来是用来做2分类问题的,对于多分类(multi-class)问题而言,最为广泛使用的一种方法就one-versus-rest。其具体做法就是对于总共C个类别而言,分别训练C个2分类分类器。测试的时候分别用这C个2分类分类器对待测样本进行打分,最后选取打分最高的分类器作为这个待测样本的最终类别。显然,无论是训练还是测试过程都是可以并行的。其训练过程的并行如下图所示:

可见,训练文件首先被复制多份,然后再传给reducer(mapper)进行训练。

半监督学习在文本分类中的应用

半监督学习(Semi-Supervised Learning)指的是学习过程不仅要使用已标记的训练数据,同时还要使用未标记的测试数据。半监督学习的应用场合一般是训练数据较少,而测试样本较多的情形。而赛题4中的-1类没有任何的训练数据,正好符合这种情形。我们算法如下图所示:

(责任编辑:蒙遗善)

时间: 2024-11-08 18:09:16

hadoop作业团队及作品介绍的相关文章

eclipse提交hadoop作业 Exception from container-launch. 帮助解决可以发红包

问题描述 eclipse提交hadoop作业 Exception from container-launch. 帮助解决可以发红包 首先说一下我的集群:master,slave1.两台机器.(slave文件中有master和slave1,为了使用两台机器进行分布式计算)logs里面的内容和图片显示一样. 解决方案 这个是信息, 解决方案二: active nodes是两个节点,一个master,一个slave1 解决方案三: Exception from container-launch:从wi

解析淘宝Hadoop作业平台——宙斯Zeus

http://www.aliyun.com/zixun/aggregation/33721.html">2014年7月1日星期二,CSDN在线培训"详解Hadoop作业平台宙斯Zeus"将和大家见面了! 宙斯开源,不仅仅是开源技术,更是开源产品! 宙斯是一个完整的Hadoop的作业平台,从Hadoop任务的调试运行到生产任务的周期调度 宙斯支持任务的整个生命周期.从功能上来说,支持: Hadoop MapReduce任务的调试运行 Hive任务的调试运行 Shell任务

Hadoop作业的生命周期

下面的图就是一个Hadoop作业运行的生命周期,在接下来的文章中,会详细分析每一个步骤的设计思路和源代码的详解,这张图真正的吃透了,Hadoop也就学会了.

改进人工鱼群算法在Hadoop作业调度算法的应用

改进人工鱼群算法在Hadoop作业调度算法的应用 吉鹏飞 齐建东 朱文飞 作业调度算法是云计算的关键技术,也是云计算核心问题,尤其是在异构环境下资源合理分配问题成为当前研究的热点.本文在分析Hadoop缺省及改进的作业调度算法基础上,引入群智能算法,设计了基于改进人工鱼群算法的Hadoop作业调度算法.采用随机键方式对待分配任务进行编码,以任务总执行时间作为启发函数,并引入吞食行为和跳跃行为改进人工鱼群算法,以达到进一步改善作业调度算法性能的目的.实验结果表明,改进后的人工鱼群算法作业调度算法在

arch-nju团队及作品介绍

1.团队介绍 本团队三名队员均为南京大学计算机系"大数据与http://www.aliyun.com/zixun/aggregation/13422.html">云计算技术"课题组(该课题组主要从事并行计算系统性能优化.大数据索引和查询技术.并行算法.以及云计算应用系统研究开发.)的研究生,因此我们将团队名称取为arch-nju.三名队员各有所长:韦永壮擅长算法设计和工程实现:张建擅长工程实现与界面设计:刘玉龙擅长算法设计且工作认真仔细. 2.作品介绍 本项目的主要工作

EagleEye团队及作品介绍

团队介绍: EagleEye队是由南京大学计算机科学与技术系的两名研究生笪庆和陈虎组成,我们两人均来自机器学习与数据挖掘研究所.EagleEye名称来源于我们在早期使用hadoop实现的一个基于内容的图像搜索引擎的名字,后来就沿用的这个名字作为在各种场合组队的队名.我们对基于真实http://www.aliyun.com/zixun/aggregation/13584.html">海量数据的机器学习和数据挖掘尤其感兴趣,我们相信机器学习和数据挖掘的技术会对所有数据集中型的行业带来推动型的发

luluorta团队及作品介绍

luluorta团队介绍: 团队共有4个人,来自华中http://www.aliyun.com/zixun/aggregation/17810.html">科技大学服务计算技术与系统实验室,领队朱洪青,主要研究方向是个性化推荐,负责算法设计.队员陆路,主要研究方向是分布式数据处理,负责算法的设计和实现.队员曾林西,主要研究方向是hadoop的参数调优,负责算法实现.队员徐樾,主要研究方向是分布式文件系统元数据管理,负责算法实现. 作品介绍 第三题 你不知道我知道 我们在做这个题目的时候考虑

Fish团队及作品介绍

团队及成员介绍 团队名称:Fish 领队:陈孝旭 队员:陈孝旭 个人介绍:来自中国科学技术大学,计算机软件理论专业2010级硕士.崇尚简单的生活,想做一条自由自在的鱼.喜欢数据挖掘,喜欢云计算,目前正积极寻找与两者相关的工作. 作品介绍 依据对"http://www.aliyun.com/zixun/aggregation/12677.html">百度知道"中用户回答问题行为的观察,发现用户有三种渠道寻找问题并进行回答:(1)根据关键字搜索:(2)根据问题分类搜索:(3

SOTB团队及作品介绍

团队介绍: SOTB(http://www.aliyun.com/zixun/aggregation/29909.html">Special Operations Training Branch),百度百科特指为特种作战训练分部.本团队来自华南理工大学软件学院,目前主要开发android软件.所开发手机软件以创意为矛,技术为盾,不仅好用,而且实用.目前已开发有静鸡鸡报警器,乔巴推箱子等android应用. 团队共2名成员,分别是曹勇,张绍儒.均为未婚,适龄,质优,价廉的优秀男青年.团队平均