Hadoop YARN学习之Hadoop框架演进历史简述

Hadoop YARN学习之Hadoop框架演进历史简述(1)

1. Hadoop在其发展的过程中经历了多个阶段:

  • 阶段0:Ad Hoc集群时代
    • 标志着Hadoop的起源,集群以Ad Hoc、单用户方式建立
  • 阶段1:Hadoop on Demand(HOD)
    • 是进化过程中的下一个阶段,以一种通用系统的形式,在商用硬件组成的共享集群上提供和管理私有Hadoop MapReduce和HDFS实例。
  • 阶段2:共享计算集群的黎明
    • 始于大量Hadoop安装转向与共享HDFS实例一起的共享MapReduce集群。
  • 阶段3:YARN的出现
    • 用以解决以往架构的需求和缺陷

2. YARN的特性:

  • 可扩展性
  • 可维护性
  • 多租户
  • 位置感知
  • 高集群使用率
  • 安全和可审计的操作
  • 可靠性和可用性
  • 对编程模型多样的支持
  • 灵活的资源模型
  • 向后兼容
时间: 2024-10-22 23:20:38

Hadoop YARN学习之Hadoop框架演进历史简述的相关文章

Hadoop YARN学习之组件功能简述(3)

Hadoop YARN学习之组件功能简述(3) 1. YARN的三大组件功能简述: ResourceManager(RM)是集群的资源的仲裁者, 它有两部分:一个可插拔的调度器和一个ApplicationManager,用于管理集群中的用户作业. NodeManager,位于每个节点上,管理该节点上用户作业和工作流. ApplicationMaster,用户作业生命周期管理者. 是用户应用程序驻留的地方. 2. 三大组件构成了一个可扩展的.灵活的.高效的环境,来运行各种类型的大数据处理作业. 3

Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5)

Hadoop YARN学习监控JVM和实时监控Ganglia.Ambari(5) 1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分. jstat工具,在JDK的bin目录,可以显示大量JVM统计信息. 1.1 JVM分析 一个Java虚拟机(JVM)进程被分为3个区(代),具体分为年轻代(young generation).年老代(tenured generation)和持久代(permanent generation) 年轻代被分为三个子区域:Eden(区),第一

Hadoop YARN学习之监控集群监控Nagios(4)

doop YARN学习之监控集群监控Nagios(4) 1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群. 2. 监控基本的Hadoop服务 调试好脚本后命名为chek_resource_manager.sh,并把它放在Nagios的插件目录中. 加载Nagios插件向hadoop-cluster.cfg添加如下信息 define command{ command_name check_resource_manager command_line /usr/lib64/na

如何将Hadoop YARN发扬广大

Yet Another Resource Negotiator 简介 带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量.借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长.Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案). 不幸的是,这个生态系统构建于一种编

阿里封神谈hadoop生态学习之路

引言 当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务.每个产品.都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring.mysql,实现产品的业务逻辑.在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark.hbase.jstorm等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前在负责阿里云的HBas

YARN:下一代 Hadoop计算平台

Apache Hadoop 是最流行的大数据处理工具之一.它多年来被许多公司成功部署在生产中.尽管 Hadoop 被视为可靠的.可扩展的.富有成本效益的解决方案,但大型开发人员社区仍在不断改进它.最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotiator (YARN).HDFS Federation 和一个高度可用的 NameNode,它使得 Hadoop 集群更加高效.强大和可靠.在本文中,将对 YARN 与 Hadoop 中的分布式处理层的

Hadoop家族学习路线图

 前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用-.慢慢地涉及到数据处理的事情,已经离不开hadoop了.Hadoop在大数据领域的成功,更引发了它本身的加速发展.现在Hadoop家族产品,已经达到20个了之多. 有必要对自己的知识做一个整理了,把产品和技术都串起来.不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备. 本文为"Hadoop家族"开篇,Hadoop家族学习路线图 目录 Hadoop家族产品 Hadoop家族学习路线图 1.

Hadoop YARN的发展史与详细解析

[编者按]成熟.通用让Hadoop深得大数据玩家喜爱,即使是在YARN出现之前,在流处理框架林立下,Hadoop仍然被众多机构广泛运用在离线处理之上.借鉴于Mesos,MapReduce获得新生,YARN提供了更加优秀的资源管理器,让Storm等流处理框架同样可以运行在Hadoop集群之上:但是别忘记,Hadoop有着远比Mesos成熟的社区.从兴起到唱衰再到兴起,这头搬运大数据的大象已更加成熟.稳重,同时我们也相信,在未来container等属性加入后,Hadoop生态系统必将发扬光大. CS

Hadoop Yarn详解

一.Yarn简介 Yarn是Hadoop集群的资源管理系统.Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn.在介绍Yarn之前,我们先回头看一下Hadoop1.x对MapReduce job的调度管理方式(可参考:Hadoop核心之MapReduce架构设计),它主要包括两部分功能: 1. ResourceManagement 资源管理 2. JobScheduling/JobMonitoring 任务调度监控