hadoop中slot简介（map slot 和 reduce slot）

Slots是Hadoop的一个重要概念。然而在Hadoop相关论文，slots的阐述难以理解。网上关于slots的概念介绍也很少，而对于一个有经验的Hadoop开发者来说，他们可能脑子里已经理解了slots的真正含义，但却难以清楚地表达出来，Hadoop初学者听了还是云里雾里。我来尝试讲解一下，以期抛砖引玉。

首先，slot不是CPU的Core，也不是memory chip，它是一个逻辑概念，一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小，因而slot是
Hadoop的资源单位。

Hadoop利用slots来管理分配节点的资源。每个Job申请资源以slots为单位，每个节点会确定自己的计算能力以及memory确定自己包含的slots总量。当某个Job要开始执行时，先向JobTracker申请slots，JobTracker分配空闲的slots，Job再占用slots，Job结束后，归还slots。每个TaskTracker定期（例如淘宝Hadoop心跳周期是5s）通过心跳(hearbeat)与Jobtracker通信，一方面汇报自己当前工作状态，JobTracker得够某个TaskTracker是否Alive；同时汇报自身空闲slots数量。JobTracker利用某个调度规则，如Hadoop默认调度器FIFO或者Capacity
Scheduler、FairScheduler等。（注：淘宝Hadoop使用云梯调度器YuntiScheuler，它是基于Fair Scheduler进行修改的）。

Hadoop里有 两种slots, map slots和reduce slots，map
task使用map slots，一一对应，reduce task使用reduce slots。注：现在越来越多的观点认为应该打破map slots与 reduce slots的界限，应该被视为统一的资源池，they are all resource，从而提高资源的利用率。区分map
slots和reduce slots，容易导致某一种资源紧张，而另一个资源却有空闲。在Hadoop的下一代框架MapR中，已经取消了map
slots与reduce slots的概念，并将Jobtracker的功能一分为二，用ResourceManager来管理节点资源，用ApplicationMaster来监控与调度作业。ApplicationMaster是每个Application都有一个单独的实例，application是用户提交的一组任务，它可以是一个或多个job的任务组成。

Hadoop中通常每个tasktracker会包含多个slots，Job的一个task均对应于tasktracker中的一个slot。系统中map slots总数与reducer slots总数的计算公式如下：

Map slots总数=集群节点数×mapred.tasktracker.map.tasks.maximum

Reducer slots总数=集群节点数×mapred.tasktracker.reduce.tasks.maximum

本文出自 “点滴积累” 博客，请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1697269

时间： 2024-08-01 13:30:25

hadoop中slot简介（map slot 和 reduce slot）的相关文章

深度分析如何在Hadoop中控制Map的数量

很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定.在默认情况下,最终input占据了多少block,就应该启动多少个Mapper.如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导致崩溃.这些逻辑确实是正确的,但都是在默认情况下的逻辑.其实如果进行一些客户化的设置,就可以控制了.

Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量，jar文件等

一个典型的实现Tool的程序: /** MyApp 需要从命令行读取参数,用户输入命令如, $bin/hadoop jar MyApp.jar -archives test.tgz arg1 arg2 -archives 为hadoop通用参数,arg1 ,arg2为job的参数 */ public class MyApp extends Configured implements Tool { //implemet Tool's run public in

Java FP: Java中函数式编程的Map和Fold(Reduce)

原文链接作者: Cyrille Martraire 译者: 李璟(jlee381344197@gmail.com) 在函数式编程中,Map和Fold是两个非常有用的操作,它们存在于每一个函数式编程语言中.既然Map和Fold操作如此强大和重要,但是Java语言缺乏Map和Fold机制,那么该如何解释我们使用Java完成日常编码工作呢?实际上你已经在Java中利用手动编写循环的方式实现了Map和Fold操作(译者注:许多动态语言如python都提供了内置的实现). 免责声明:本篇文章仅仅只是

《深入理解Hadoop（原书第2版）》——第2章 Hadoop中的概念 2.1 Hadoop简介

第2章 Hadoop中的概念价格实惠的普通计算机经常满足不了应用程序的计算资源需求,很多企业的业务应用程序已经不再适合在单台廉价的计算机上运行.这时,一个简单昂贵的解决方案就是购买一些具有多CPU的高端服务器,这通常需要巨额资金.只要能买到最高端的服务器,这个解决方案就能够达到理想的效果,但预算往往是个大问题.另一个替代方案,就是搭建一个高可用的集群,这个集群经过专业的安装和精心的管理服务,使用起来就像一台计算机一样.很多高可用的集群都是企业专有的而且价格也十分贵. 为了获取所需的计算资源,一

hadoop中map处理多行数据，可以满足用于算法模型的输入。

问题描述 hadoop中map处理多行数据,可以满足用于算法模型的输入. 在分布式平台做算法研究,遇到一个map处理文件是以行为单位.怎么使map可以读取多行数据然后可以在map中进行算法模型的训练. 以下是我的尝试: 1:NLineInputFormat 不行,还是单行输出数据. 2:重写 InputFormat函数. 数据集没有具体的切分标志,只能说一个map处理 100或200行数据.没有类似 {} " " -- 的切分标志. 解决方案你重写函数后也总要有一个规则来定义你的m

Hadoop中的Context使用

Hadoop中的Context使用.简要截取: 本文以经典的wordcount程序为例来说明context的用法: 直接上代码: package MapReduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import

hadoop中OutputFormat 接口的设计与实现

OutputFormat 主要用于描述输出数据的格式,它能够将用户提供的 key/value 对写入特定格式的文件中. 本文将介绍 Hadoop 如何设计 OutputFormat 接口 , 以及一些常用的OutputFormat 实现. 1.旧版 API 的 OutputFormat 解析如图所示, 在旧版 API 中,OutputFormat 是一个接口,它包含两个方法: RecordWriter<K, V> getRecordWriter(FileSystem ignored, Job

hadoop中combine，partition和shuffle的疑问

问题描述 hadoop中combine,partition和shuffle的疑问这是我理解的hadoop函数调用过程,但还是有点疑惑,比如:每个map函数输出都调用一个partition函数(图中为此方式)还是一个partition函数处理所有的map输出,如果图中的过程正确,那么shuffle函数调用发生在哪里? 解决方案 http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/ 解决方案二: 本图画得有问题,首先partitioner函数

4种常用压缩格式在Hadoop中的应用

目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式. 1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便. 缺点:不支持split. 应用场景:当每个文件压缩之后在130M以内的(1个

猜你喜欢

三、第一个Servlet

servlet 3.1 Servlet基本结构下面的代码显示了一个简单Servlet的基本结构.该Servlet处理的是GET请求,所谓的GET请求,如果你不熟悉HTTP,可以把它看成是当用户在 ...

删除数据库字段中的汉字或字符

汉字|数据|数据库删除汉字: CREATE FUNCTION deleteHz (@cargoname varchar(512)) RETURNS varchar(512) AS BEGIN ...

用mutipop功能把外部邮箱的邮件收到企业邮箱里来

我们经常会使用多个邮箱,打开不同的邮箱去了解不同的信息,这个动作似乎变得越来越费事费时.我们急需一个功能:打开一个邮箱就能看到其他邮箱信息.使用MDaemon的multipop功能就能满足这个需求,它 ...

Word文档中如何实现一个页面转向

步骤一.首先将你的横向方式页面的前一页插入一个分隔符,具体操作就是在页尾点击"插入--分隔符",在上面点击"连续"插入.这样分隔符就插入完成了步骤二.继续在打 ...

Win8中为IE浏览器添加Flash插件的方法

1.首先,返回到win8系统的传统桌面位置,找到这台电脑图标,双击打开,进入到win8系统的资源管理器窗口了,在打开的窗口中,在上方的地址栏中输入C:Users用户名AppDataLocalMic ...

Windows7系统下新建库提示16389错误提示

操作步骤可是有同学反映,新建库的时候,系统弹出错误信息"无法创建文件 '新建库.library-ms'文件系统错误(16389)". 无法创建库?? 不要着急,这个可能是相 ...

360免费升级win10一键安装方法

360免费升级win10一键安装方法其实很简单的,通过下文大家就可以很清楚的了解到360升级win10只要睡觉的时间就可以全自动升级! 在深圳举行的windows 硬件工程产业创新峰会上,360公 ...

为PHP安装imagick时出现Cannot locate header file MagickWand.h错误的解决方法_php实例

今天在新服上安装php imagick, 环境如下: php 5.4.13 ImageMagick-6.8.3-10 imagick-3.0.1 可是出错了一个问题.就是死说找不到MagickWand ...

Git学习--&gt;关于Jenkins编译时候，如何获取Git分支的当前分支名？

一.背景因为代码都迁移到了Gitlab,所以Jenkins编译的时候我们都需要将之前的SVN信息换成现在的Git信息.最近编译一个Lib库的时候,因为团队规定上传Release版本的AAR到Mave ...

vb6 0-VB里如何计算复数矩阵

问题描述 VB里如何计算复数矩阵 VB里怎么输入复数矩阵,怎么计算? 实数矩阵我可以计算,就是不知道复数怎么整. 解决方案 http://www.pudn.com/downloads661/sourc ...

pipework let's assign static IP to docker container simple.

pipework是Docker工程师写的一个脚本, 主要用来管理container的网络. 用法参考 https://github.com/jpetazzo/pipework/blob/master ...

Chrome 正在变得越来越难用，你有同感么？

今天早上闲来无事,我在 Twitter 吐槽 Mac 系统上的 Chrome 越更新越不稳定,越臃肿.没想到引来了诸多回复.其中最令人惊讶的是:所有的回复都一致认为 Chrome 越来越慢了. 不光是 ...

ios-检测NSNumber后面的数字是不是.00

问题描述检测NSNumber后面的数字是不是.00 用到一个方法,创建NSNumber数字类似钱形式的. + (NSString *)formatShortPayment: (NSNumber *) ...

[LeetCode] Power of Four

Given an integer (signed 32 bits), write a function to check whether it is a power of 4. Example: Gi ...

帮我看下简单的问题

问题描述以下是asp.net页面上的一段,当我选择监督时,我要给ID赋1,先投诉时,给ID赋2以此类推.请问我在CS中该如何写?谢谢<tdalign="right"> ...

改善C#程序的建议8：避免锁定不恰当的同步对象

原文:改善C#程序的建议8:避免锁定不恰当的同步对象在C#中让线程同步的另一种编码方式就是使用线程锁.所谓线程锁,就是锁住一个资源,使得应用程序只能在此刻有一个线程访问该资源.可以用下面这句不是那么 ...

小米手机来电闪光灯怎么设置 ?

注意:MIUI系统版本必须为最新版本了,只有最新版本的才可以这样制作了. 第一步,在手机桌面我们点击"设置"然后我们会看到最左边一排如下图所示第二步,然后我们打开的" ...

【ASP.NET Web API教程】2.1 创建支持CRUD操作的Web API

原文 [ASP.NET Web API教程]2.1 创建支持CRUD操作的Web API 2.1 Creating a Web API that Supports CRUD Operations2.1 ...

hibernate4.3 配置log4j错误

问题描述 hibernate4.3 配置log4j错误 log4j:WARN No appenders could be found for logger (org.jboss.logging). l ...

北京高院宣判：微信商标案终审驳回上诉维持原判

腾讯公司2011年推出微信即时通讯服务,截至2015年一季度,微信月活跃用户已达 5.49 亿.然而,另一家公司创博亚太(山东)科技有限公司却因微信商标归属,将商标评审委员会告上法庭.创博亚太称其在腾 ...

正则表达式介绍及常见用法

正则表达式(Regular Expression),又称正规表示法.常规表示法,在实际的软件开发项目中经常会被使用到.它使用单个字符串来描述.匹配并获取一系列符合某个句法规则的结果. 正则表达式起 ...

SWT开发Griddata的heightHit=-1有什么含义

问题描述今天用jd_gui查看jar包的class文件,里面有一句代码如下heightHint=-1这个heightHint代表组件高度,我想请问一下它为负数是什么意思? 解决方案由系统自动计算获 ...

百度口碑向无良驾校宣战引起发真相热潮

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅近日,石家庄车管所集体贪污的新闻在 ...

基于jQuery通过jQuery.form.js插件使用ajax提交form表单_javascript技巧

我们在提交表单的时候,如果没有使用ajax提交,页面都会自己刷新一下,显得非常的不友好,所以我们需要把我们的表单提交修改为ajax的模式,可以让用户清楚地知道他们在提交表单的时候处在哪一个阶段:正在提 ...

Web网站安全性存在的五个误解_网络冲浪

目前,黑客攻击已成为一个很严重的网络问题.许多黑客甚至可以突破SSL加密和各种防火墙,攻入Web网站的内部,窃取信息.黑客可以仅凭借浏览器和几个技巧,即套取Web网站的客户信用卡资料和其它保密 ...

asp伪继承初探_实例代码_应用技巧

其中使用到一个分页类CPaging 复制代码代码如下: Class CPaging Public RS ' RecordSet对象 Public Mark ' 指针标签 Private sSize ...

1小时内加密你的生活：简易隐私保护攻略

在中国民众寻求如何在数字网路世界保护隐私时,歪果仁们也一样哦! 学习编程的开源社区自由编程营(Free Code Camp)创始人昆西·拉森(Quincy Larson)最近在Medium网站发表了一 ...

女子开网店卖假名牌被判1年

本报讯 (记者王丽娜通讯员雪洁)在淘宝网上开设的店里,将假冒的LV.GUCCI.CHANEL,以400元至800元不等卖出,曹某在3年多的时间里,销售额达20余万.昨天,记者从丰台法院获悉,曹某因销 ...

3 款 Linux 下的照片管理软件

Linux 下的照片管理软件大家熟悉的大致有十来个.网上搜索一下就能看到相关的文章介绍.本站以前也介绍过:六款优秀的 Linux 照片管理软件,LinuxLink 也有:7 of the Best F ...

解决ListView异步加载网络图片的各种问题(一)

MainActivity如下: package com.example.testlistview; import java.util.ArrayList; import android.os.Bund ...

热搜