Hadoop YARN学习之组件功能简述(3)

Hadoop YARN学习之组件功能简述(3)

1. YARN的三大组件功能简述:

  • ResourceManager(RM)是集群的资源的仲裁者,
    • 它有两部分:一个可插拔的调度器和一个ApplicationManager,用于管理集群中的用户作业。
  • NodeManager,位于每个节点上,管理该节点上用户作业和工作流。
  • ApplicationMaster,用户作业生命周期管理者。
    • 是用户应用程序驻留的地方。

2. 三大组件构成了一个可扩展的、灵活的、高效的环境,来运行各种类型的大数据处理作业。

3. 组件功能协作简述

  • ResourceManager动态的分配特定节点来运行应用程序。
  • Container是绑定到特定集群节点的一组资源逻辑组合(如内存、核)
  • 为了执行和跟踪这些资源分配,ResourceManager与运行在每个节点上的NodeManager进程交互。
  • 基于可扩展性的需求,ResourceManager和NodeManager之间通过心跳来通信。
  • NodeManager负责本地可以资源的监控,故障报告以及Container生命周期的管理(如杀死和启动作业)。ResourceManager依赖NodeManager来维护集群的全局视图。

4. YARN调度组件

  • YARN有一个可插拔的调度器组件,根据不同的使用场景和用户需求,管理员可以选择简单的FIFO(先进先出),Capacity或者Fair Share Schedule。

    • FIFO先进先出
    • Capacity,允许多个组安全地共享一个大规模Hadoop集群。
    • Fair,公平调度器是将资源公平分配给应用的方法,使得所用在平均情况下随着时间的到相等的份额。
      • YARN Fair的新特性支持层次化队列。
    • YARN默认为Capacity调度组件

5. 在YARN中,MapReduce不再是工作流中的一部分,因为它只是一种ApplicationMaster控制的应用程序框架,在YARN环境下,其他框架已经可以使用或者正在开发中。

时间: 2024-08-31 22:16:13

Hadoop YARN学习之组件功能简述(3)的相关文章

Hadoop YARN学习之Hadoop框架演进历史简述

Hadoop YARN学习之Hadoop框架演进历史简述(1) 1. Hadoop在其发展的过程中经历了多个阶段: 阶段0:Ad Hoc集群时代 标志着Hadoop的起源,集群以Ad Hoc.单用户方式建立 阶段1:Hadoop on Demand(HOD) 是进化过程中的下一个阶段,以一种通用系统的形式,在商用硬件组成的共享集群上提供和管理私有Hadoop MapReduce和HDFS实例. 阶段2:共享计算集群的黎明 始于大量Hadoop安装转向与共享HDFS实例一起的共享MapReduce

Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5)

Hadoop YARN学习监控JVM和实时监控Ganglia.Ambari(5) 1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分. jstat工具,在JDK的bin目录,可以显示大量JVM统计信息. 1.1 JVM分析 一个Java虚拟机(JVM)进程被分为3个区(代),具体分为年轻代(young generation).年老代(tenured generation)和持久代(permanent generation) 年轻代被分为三个子区域:Eden(区),第一

Hadoop YARN学习之监控集群监控Nagios(4)

doop YARN学习之监控集群监控Nagios(4) 1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群. 2. 监控基本的Hadoop服务 调试好脚本后命名为chek_resource_manager.sh,并把它放在Nagios的插件目录中. 加载Nagios插件向hadoop-cluster.cfg添加如下信息 define command{ command_name check_resource_manager command_line /usr/lib64/na

Hadoop YARN的发展史与详细解析

[编者按]成熟.通用让Hadoop深得大数据玩家喜爱,即使是在YARN出现之前,在流处理框架林立下,Hadoop仍然被众多机构广泛运用在离线处理之上.借鉴于Mesos,MapReduce获得新生,YARN提供了更加优秀的资源管理器,让Storm等流处理框架同样可以运行在Hadoop集群之上:但是别忘记,Hadoop有着远比Mesos成熟的社区.从兴起到唱衰再到兴起,这头搬运大数据的大象已更加成熟.稳重,同时我们也相信,在未来container等属性加入后,Hadoop生态系统必将发扬光大. CS

Hadoop Yarn详解

一.Yarn简介 Yarn是Hadoop集群的资源管理系统.Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn.在介绍Yarn之前,我们先回头看一下Hadoop1.x对MapReduce job的调度管理方式(可参考:Hadoop核心之MapReduce架构设计),它主要包括两部分功能: 1. ResourceManagement 资源管理 2. JobScheduling/JobMonitoring 任务调度监控

阿里封神谈hadoop生态学习之路

引言 当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务.每个产品.都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring.mysql,实现产品的业务逻辑.在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark.hbase.jstorm等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前在负责阿里云的HBas

Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler. Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参数,另外一部分在一个自定义配置文件(默认是fair-scheduler.xml)中,主要用于配置各个队列的

Hadoop家族学习路线图

 前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用-.慢慢地涉及到数据处理的事情,已经离不开hadoop了.Hadoop在大数据领域的成功,更引发了它本身的加速发展.现在Hadoop家族产品,已经达到20个了之多. 有必要对自己的知识做一个整理了,把产品和技术都串起来.不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备. 本文为"Hadoop家族"开篇,Hadoop家族学习路线图 目录 Hadoop家族产品 Hadoop家族学习路线图 1.

Hadoop YARN配置参数剖析(1)—RM与NM相关参数

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患.另外,这些参数均需要在yarn-site.xml中配置. 1.    ResourceManager相关配置参数 (1) yarn.resourcemanager.address 参数解释:ResourceManager 对客户端暴露的地址.客户端通过该地址向RM提交应用程序,杀死应用程序等. 默认值:${yarn.resourcemanager.hostname}:8032 (2) yarn.resourcemana