Spark-Yarn架构介绍

1.简介

MapReduct框架从hadoop-0.23版本以后发生了重大的变革, 新的计算框架我们称为MapReudce 2.0 或者 YARN(Yet-Another-Resource-Negotiator)

这篇文章主要是简单的介绍YARN的架构, 因为后续我们都会使用YARN提交Spark程序

MapReduct 2.0最主要的变革是把资源分配任务调度隔离. 一个全局的资源管理称为ResourceManager (RM), 同时每个应用本身有一个ApplicationMaster (AM). 应用可以是单独的Job也可用是MapReduce job或者是是一个DAG job.

ResourceManager和NodeManager (NM)组成数据处理框架, ResourceManager对所有应用进行资源分配,管理和调度

每个应用程序都有一个ApplicationMaster, ApplicationMaster从ResourceManager分配到资源, 在NodeManager执行和监控任务

2. 架构

  1. 在 YARN 架构中,一个全局 ResourceManager 以主要后台进程的形式运行,它通常在专用机器上运行,在各种竞争的应用程序之间仲裁可用的集群资源。ResourceManager 会追踪集群中有多少可用的活动节点和资源,协调用户提交的哪些应用程序应该在何时获取这些资源。ResourceManager 是惟一拥有此信息的进程,所以它可通过某种共享的、安全的、多租户的方式制定分配(或者调度)决策(例如,依据应用程序优先级、队列容量、ACLs、数据位置等)。
  2. 在用户提交一个应用程序时,一个称为 ApplicationMaster 的轻量型进程实例会启动来协调应用程序内的所有任务的执行。这包括监视任务,重新启动失败的任务,推测性地运行缓慢的任务,以及计算应用程序计数器值的总和。这些职责以前分配给所有作业的单个 JobTracker。ApplicationMaster 和属于它的应用程序的任务,在受 NodeManager 控制的资源容器中运行。
  3. NodeManager 是 TaskTracker 的一种更加普通和高效的版本。没有固定数量的 map 和 reduce slots,NodeManager 拥有许多动态创建的资源容器。容器的大小取决于它所包含的资源量,比如内存、CPU、磁盘和网络 IO。目前,仅支持内存和 CPU (YARN-3)。未来可使用 cgroups 来控制磁盘和网络IO。一个节点上的容器数量,由配置参数与专用于从属后台进程和操作系统的资源以外的节点资源总量(比如总 CPU 数和总内存)共同决定。
  4. ApplicationMaster 可在容器内运行任何类型的任务。例如,MapReduce ApplicationMaster 请求一个容器来启动 map 或 reduce 任务,而 Giraph ApplicationMaster 请求一个容器来运行 Giraph 任务。您还可以实现一个自定义的 ApplicationMaster 来运行特定的任务,进而发明出一种全新的分布式应用程序框架,改变大数据世界的格局。

在 YARN 中,MapReduce 降级为一个分布式应用程序的一个角色(但仍是一个非常流行且有用的角色),现在称为 MRv2。MRv2 是经典 MapReduce 引擎(现在称为 MRv1)的重现,运行在 YARN 之上。

时间: 2024-10-16 04:38:26

Spark-Yarn架构介绍的相关文章

《Scala机器学习》一一3.2 理解Spark的架构

3.2 理解Spark的架构 并行化是将工作负载划分为在不同线程或不同节点上执行的子任务.下面介绍Spark实现并行化的原理,以及它如何管理子任务的执行和子任务之间的通信.3.2.1 任务调度Spark工作负载的划分由弹性分布式数据集(Resilient Distributed Dataset,RDD)的分区数决定,这是Spark的基本抽象和管道结构.RDD是一种可并行操作的.不可变元素的分区集合.具体细节可能取决于Spark的运行模式,图3-2为Spark任务/资源调度的示意图. 图3-2 通

Kafka设计解析(一)- Kafka背景及架构介绍

本文转自Jason's Blog, 原文链接 http://www.jasongj.com/2015/03/10/KafkaColumn1 摘要 Kafka是由LinkedIn开发并开源的分布式消息系统,因其分布式及高吞吐率而被广泛使用,现已与Cloudera Hadoop,Apache Storm,Apache Spark集成.本文介绍了Kafka的创建背景,设计目标,使用消息系统的优势以及目前流行的消息系统对比.并介绍了Kafka的架构,Producer消息路由,Consumer Group

深入理解Spark:核心思想与源码分析. 2.4 Spark基本架构

2.4 Spark基本架构 从集群部署的角度来看,Spark集群由以下部分组成: Cluster Manager:Spark的集群管理器,主要负责资源的分配与管理.集群管理器分配的资源属于一级分配,它将各个Worker上的内存.CPU等资源分配给应用程序,但是并不负责对Executor的资源分配.目前,Standalone.YARN.Mesos.EC2等都可以作为Spark的集群管理器. Worker:Spark的工作节点.对Spark应用程序来说,由集群管理器分配得到资源的Worker节点主要

《深入理解Spark:核心思想与源码分析》——2.4节Spark基本架构

2.4 Spark基本架构从集群部署的角度来看,Spark集群由以下部分组成:Cluster Manager:Spark的集群管理器,主要负责资源的分配与管理.集群管理器分配的资源属于一级分配,它将各个Worker上的内存.CPU等资源分配给应用程序,但是并不负责对Executor的资源分配.目前,Standalone.YARN.Mesos.EC2等都可以作为Spark的集群管理器.Worker:Spark的工作节点.对Spark应用程序来说,由集群管理器分配得到资源的Worker节点主要负责以

从零开始编写自己的C#框架(5)——三层架构介绍

原文:从零开始编写自己的C#框架(5)--三层架构介绍 三层架构对于开发人员来说,已经是司空见惯了,除了大型与超小型项目外,大多都是这种架构来进行开发.   在这里为初学者们简单介绍一下三层架构: (下面内容摘自<趣味理解:三层架构与养猪-<.NET深入体验与实战精要>>,这是以前看到的关于三层架构介绍,觉得挺经典的,大家有时间的话认真看看) 对比以上两图,我们可以看出: 1)数据库好比猪圈 ,所有的猪有序地按区域或编号,存放在不同的猪栏里. 2)DAL 好比是屠宰场 ,把猪从猪圈

《Spark大数据处理:技术、应用与性能优化》——1.4 Spark分布式架构与单机多核架构的异同

1.4 Spark分布式架构与单机多核架构的异同 我们通常所说的分布式系统主要指的是分布式软件系统,它是在通信网络互连的多处理机的架构上执行任务的软件系统,包括分布式操作系统.分布式程序设计语言.分布式文件系统和分布式数据库系统等.Spark是分布式软件系统中的分布式计算框架,基于Spark可以编写分布式计算程序和软件.为了整体宏观把握和理解分布式系统,可以将一个集群视为一台计算机.分布式计算框架的最终目的是方便用户编程,最后达到像原来编写单机程序一样编写分布式程序.但是分布式编程与编写单机程序

Apache Shiro 使用手册(一) Shiro架构介绍_Linux

一.什么是ShiroApache Shiro是一个强大易用的Java安全框架,提供了认证.授权.加密和会话管理等功能:认证 - 用户身份识别,常被称为用户"登录":授权 - 访问控制:密码加密 - 保护或隐藏数据防止被偷窥:会话管理 - 每用户相关的时间敏感的状态.对于任何一个应用程序,Shiro都可以提供全面的安全管理服务.并且相对于其他安全框架,Shiro要简单的多. 二.Shiro的架构介绍首先,来了解一下Shiro的三个核心组件:Subject, SecurityManager

互联网金融网贷平台技术架构介绍

本文讲的是互联网金融网贷平台技术架构介绍,目前互联网金融正飞速发展,快速改变着我国的金融格局.短时间内,各类融资理财平台(如陆金所.人人贷.旺财谷等)为有理财需求的理财者们,提供各种投资标的和投资渠道;也为大量有融资需求的企业开辟了新的融资渠道.这些平台主动拥抱互联网金融的浪潮,迎来了行业发展的机遇. 伴随着整个行业的成长,各个理财平台技术团队和技术架构也在发展.现在这些平台也不可避免的也发生了分化,有的快速成长,有的面临困境. 比如:有的平台采用外包或购买技术平台,没有能力去进行系统的研发和升

Flex 4 和 Flash Builder 4 正式版发布 采用全新的Spark组件架构

Flex 4 正式版于昨天正式对外发布.Flex 4采用全新的Spark组件架构,支持Flash Catalyst和Flash Builder4的设计开发工作流,以及其他许许多多的新特性. * 下载 Flex 4 SDK 一起发布的还有Flash Builder 4,有90多个新特性,大大提升了开发者的生产效率. * 下载Flash Builder 4正式版 (包含中文版) * 部分新特性简介 Flex开发者论坛:http://www.adobe.com/devnet/flex/