Hadoop 2.0中Capacity Scheduler与Fair Scheduler对比

随着Hadoop版本的演化,Fair Scheduler和Capacity Scheduler的功能越来越完善,包括层级队列组织方式、资源抢占、批量调度等,也正因如此,两个调度器同质化越来越严重,目前看了,两个调度器从设计到支持的特性等方面非常接近,而由于Fair Scheduler支持多种调度策略,现在看来,可以认为Fair Scheduler具备了Capacity Scheduler具有的所有功能。

下表从多个方面对比了Hadoop 2.0(YARN)中这两个调度器的异同,通过这个表读者能更好地理解Capacity Scheduler与Fair Scheduler的相同点和不同点。


其中,FIFO、FAIR和DRF分别是指先来先服务、公平调度和主资源公平调度,具体含义如下:

 FIFO:先按照优先级高低调度,如果优先级相同,则按照提交时间先后顺序调度,如果提交时间相同,则按照(队列或者应用程序)名称大小(字符串比较)调度;

 FAIR:按照内存资源使用量比率调度,即按照used_memory/minShare大小调度(核心思想是按照该调度算法决定调度顺序,但还需考虑一些边界情况);

 DRF:借鉴了Mesos中的设计策略,按照主资源公平调度算法进行调度,具体已经在Apache Mesos调度器机制进行了介绍。

【总结】在MRv1和YARN中,尽管Fair Scheduler和Capacity Scheduler均是插拔式的,且实现原理基本一致,但由于YARN采用了事件驱动的编程模型,因此,它的资源调度器设计更加复杂,它要求用户不仅要了解基本的编程接口,还要理解ResourceManager与资源调度器之间基于事件的交互逻辑。

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-capacity-scheduler-fair-scheduler/

时间: 2024-10-28 14:41:01

Hadoop 2.0中Capacity Scheduler与Fair Scheduler对比的相关文章

Hadoop 2.0中的基本术语解释

(1) Hadoop 1.0 第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x. (2) Hadoop 2.0 第二代Hadoop,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的.针对Hadoop 1.0中的单NameN

【Hadoop Summit Tokyo 2016】Apache Hadoop 3.0 :YARN和MapReduce有什么新特性?

本讲义出自Junping Du在Hadoop Summit Tokyo 2016上的演讲,主要分享了在Apache Hadoop 3.0中YARN和MapReduce已经拥有和正在演进的新特性,并且对于Apache Hadoop 3.0 版本的时间轴进行了分享.

Hadoop中国技术峰会引发Hadoop 2.0风暴

Hadoop从2006年诞生到现在已经走过7年.试问当今全球执Hadoop技术牛耳者当谁?你一定会想到Hortonworks和Cloudera,否则你都不好意思说你了解Hadoop. 作为本年度大中华地区规模最大的Hadoop技术峰会,China Hadoop Summit是不会被这两大厂商 忽视的.记者日前从大会组委会了解到,Hortonworks亚太区 技术总监Jeff Markham将在大会第一天发表主题演讲, 重点介绍Hadoop 2.0和YARN的最新消息,以及Hadoop未来的发展方

Hadoop 2.0:YARN能否改变游戏规则?

随着大数据概念的升温,Hadoop作 为最具代表性的技术进入人们视野已有一段时间了.整个Hadoop生态系统也在飞速发展,几乎每一天都会衍生出新的功能或者新的工具.尽管有一些是微小的 改动,比如Oozie中更完美地支持调度,或者还有一些仍在开发中,比如对NFS的支持.还有一些非常酷的特性,比如在Pig当中对CPython提供完 整支持等.但在我看来,这些都不如Hadoop 2.0中的YARN更具革命性. 我们都知道,Hadoop有两个核心的组件,即HDFS(分布式文件系统)和MapReduce架

Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler. Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参数,另外一部分在一个自定义配置文件(默认是fair-scheduler.xml)中,主要用于配置各个队列的

淘宝主搜索离线集群完成Hadoop 2.0升级

搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级: 2013-04 第一阶段,主要是升级hdfs为2.0版本,mapreduce仍旧是1.0;同时hbase也进行了一次重大升级(0.94.5版本),hive升级到0.9.0: 2013-09,2013-12 第二阶段,主要升级mapreduce到2.0版本即(YARN),hive升级到0.10.0,在13年年底的时候对hbase进行了一次小版本升级: 至此,dump离线集群完全进入2.0时代: 通过升级hdfs 2.0优

如何删除恢复Hadoop集群中的DataNode

有时候因为做临时调整可能需要删除hadoop集群中的DataNode,具体方法如下: 首先在/etc/hadoop/conf/dfs.exclude 中添加要删除节点的机器名 在控制台页面中看见显示了一个Dead  Datanodes 使用命令刷新节点信息: [hdfs@hmc ~]$ hadoop dfsadmin -refreshNodes 查看hdfs的使用报告:[hdfs@hmc ~]$ hadoop dfsadmin -report  红色字体状态表示节点退出 Name: 192.16

《深入理解Hadoop(原书第2版)》——2.4 Hadoop 2.0

2.4 Hadoop 2.0 MapReduce已经进行了全新升级,即Hadoop 2.0,升级后的版本经常被称为MapReduce 2.0(MR v2)或者YARN.本书中常常提到其版本号2.x,虽然发行版本小数点后面的数字有变化,但是系统架构或者其运行方式并不会发生根本的变化. MR v2是一套应用编程接口(API),该接口兼容MR v1,根据MR v1接口编写的程序仅需重新编译即可.Hadoop 2.x系统的底层架构已经完全改变了,Hadoop 1.x中的作业调度器承担两个主要功能: 资源

Java 理论与实践: JDK 5.0 中更灵活、更具可伸缩性的锁定机制

伸缩 内容: synchronized 快速回顾 对 synchronized 的改进 比较 ReentrantLock 和 synchronized 的可伸缩性 条件变量 这不公平 结束语 参考资料 关于作者 对本文的评价 相关内容: Java 理论与实践 系列 Synchronization is not the enemy Reducing contention IBM developer kits for the Java platform (downloads) 订阅: develop