YARN赋予Hadoop新的能力

  近日,">Hadoop 2 GA版发布,借助于YARN,Hadoop 2可以创建能在Hadoop中本地工作的数据处理应用。通过将集群资源管理这些关注点从数据处理中分离出来,YARN使得Hadoop能应用于Map-Reduce以外的数据处理中。因此,这样大量新项目就有可能实现了。比如Stinger和Tez这样的项目,它们关注于在某些场合下获得预期的人工交互响应时间。STORM则致力于流数据处理。Spring已经宣布了Spring YARN framework,那些想编写自己的YARN应用的Java开发者们可以使用它实现自己的目标。通过寻求Hadoop的存储和集群管理平台之间的平衡,数据处理应用现在使得用户能以多种方式与数据进行交互。我们曾和Hortonworks的产品经理Rohit Bakhshi谈过YARN以及YARN给Hadoop用户带来的意义。Rohit同我们分享了他关于YARN的能力简单看法 Hadoop一直保持着向前的势头,并且越来越多的企业(不仅仅是web规模的公司)都想将所有传入的数据保存在Hadoop中,因而它们的用户能够使用多种方式与这些数据进行交互:批处理、交互式、实时数据流分析等等。而且更重要的是,他们要能同时执行这些交互,而不会出现在交互时单个应用或查询占用集群的所有资源的情况。

  借助于YARN将Apache Hadoop 2转化成一个多应用的数据系统,Hadoop社区可以处理Hadoop所面临的新一代需求。YARN在底层就满足了实际的需求,而不是以商业附加组件来处理这些需求------会使得用户的环境变得更复杂,这样YARN就很好地满足了这些企业的需求。

  展望未来,企业将能部署多租户的、服务于多个目标的Hadoop集群,这些集群可以满足不同组织和应用框架的各项SLA的要求。通过使用mapred api,YARN为种种应用提供了二进制的兼容性。但在Hadoop 1.x中只是使用mapreduce api提供了源代码级的兼容性。Rohit解释说 在Hadoop 2.0中,各个客户端会向运行在YARN上的MapReduce v2框架提交种种MapReduce应用。而在Hadoop 1.0中,各个客户端则向MapReduce v1框架提交MapRecude应用。

  这两类API都引用开发者可用的MapRecude框架来创建MapReduce应用。org.apache.hadoop.mapred API是最早的API,最广泛地使用在MapReduce应用的创建中。任何使用mapred API开发的MapReduce v1应用都可以提交至运行在YARN上的MapReduce v2框架,并在该框架中运行。在这种情况下,无须修改该MapReduce应用。

  而org.apache.hadoop.mapreduce API则是MapReduce框架的较新的API集。在MapReduce v2和运行于YARN上的MapReduce v2之间,这些API没有提供二进制的兼容性。现存的MapReduce v1应用如果使用了这些API,则需要使用Hadoop2.x Hadoop包进行重编译。重编译后,应用就可以提交至运行在YARN上的MapReduce v2框架,并在该框架中运行。 读者可以通过这里了解进一步的信息。升级现有的Hadoop集群的过程也是很直接和方便的 Hadoop和HDP(包括所有相关的Apache Hadoop组件)都支持“就地”升级,可以就地从HDP 1.3(Hadoop 1.x)升级至HDP 2.0(Hadoop2.x)。保持了所有已有数据,而同时就地升级了元数据,并无须迁移。配置已从HDP 1.3升级至HDP 2.0,会废弃以前配置中的一些配置属性,同时添加一些新的配置属性。所以已有的HDP 1.3配置需要迁移至HDP 2.0。当我们问他会否担忧那些过早地在较小数据集上使用Hadoop的公司时, Rohit回答说他有不同的看法 我们以各种方式使用Hadoop,并且由于它是开源的,我们能看到各种用法。我不会认为这些用法是“过早的”;实际上,很多组织会从一个小的集群开始来使用Hadoop,这个集群仅仅只有几个节点和几T数据,但最终这些环境都不断扩大,直到形成一个数据湖并提供了一个中等的数据架构。小的集群并不是“过早的”---它们是种子。

时间: 2024-10-10 22:34:34

YARN赋予Hadoop新的能力的相关文章

YARN为Hadoop赋予新的能力

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 近日,Hadoop 2 GA版发布,借助于YARN,Hadoop 2可以创建能在Hadoop中本地工作的数据处理应用.通过将集群资源管理这些关注点从数据处理中分离出来,YARN使得Hadoop能应用于Map-Reduce以外的数据处理中.因此,这样大量新项目就有可能实现了.比如Stinger和Tez这样的项目,它们关注于在某些场合下获得预期的人工交互响应时间.STO

介绍Hadoop新的map-reduce框架(Yarn)的原理

读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和http://www.aliyun.com/zixun/aggregation/8511.html">设计思想,文中的 Demo 代码经过微小修改即可用于用户基于 hadoop 新框架的实际生产环境. 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介

YARN或将成为Hadoop新发力点

2013年的Hadoop峰会上,YARN是一个热点话题,YARN本质上是Hadoop的新操作系统,突破了MapReduce框架的性能瓶颈.Murthy认为Hadoop和YARN的组合是企业大数据平台致胜的关键. Yahoo!最初开发Hadoop,是为了用于搜索和索引Web网页,目前很多的搜索服务都是基于这个框架的,但是Hadoop从本质上来说还只是一个解决方案.2013年的Hadoop峰会上,YARN是一个热点话题.三年的酝酿,YARN本质上是Hadoop的操作系统,突破了MapReduce框架

Web 分享 API 赋予浏览器原生分享能力

本文讲的是Web 分享 API 赋予浏览器原生分享能力, 多年来,Web 一直向着与移动原生应用等价的方向发展,并且新增了许多以前没有的特性. 如今,浏览器支持了其中的大部分特性,从离线模式到用 Service Workers 增强体验以及 Geolocation 和 NFC. 但有一种已经在移动应用上广泛使用的重要功能仍然缺失,那就是分享页面.文章或一些特定数据的功能. Web 分享 API 是填补这种缺失的第一步,它将把原生的分享能力带到 Web 端. 为什么需要新的 API 前几年,在移动

云技术让UC浏览器TV版 赋予懒人超能力

本文讲的是<strong>云技术让UC浏览器TV版 赋予懒人超能力,</strong>在看<来自星星的你>时,"都敏俊兮"的超能力是不是很让大家很羡慕?要睡觉,意念关灯;渴了,隔空端水;瞬间移动就更帅了--虽然没有都敏俊的超能力,但科技已经让越来越多的麻烦从生活中划走,我们以火箭速度进入了"懒人时代":懒得洗碗,有洗碗机;懒得扫地,有扫地机;懒得按开关,有声控电灯--在智能家居大行其道的今天,电视也越来越智能化.近日,UC浏览器T

A5营销:互联网新时代 赋予SEO新的意义

导读:"SEO越来越复杂,10年前SEO从页面堆积关键词变为外链建设,现在的SEO又从外链变为品牌.用户体验.社会化."以上引自ZAC对新时代下SEO的见解. 新媒体.移动互联.IT技术.数字技术的最新发展,引领着互联网进行新的时代.各大搜索引擎为了互联网良性的发展,对搜索优化的要求也日益严格,频繁更新得到搜索算法使得站长们抱怨不断,互联网高速发展的时代下,并赋予SEO新的意义. 外链意味着高权重 在搜索引擎刚出现时,判断页面与关键词的相关性时,主要以页面上的元标签.关键词标签.H标签

“卖肾”和“土豪”,被赋予了新的意义

拜iPhone所赐,有两个原本冷门的词汇,"卖肾"和"土豪",被赋予了新的意义,并成为当之无愧的热年度词儿.而它们与iPhone最大也是唯一的关联,就是被用来形容后者的昂贵.如今随着iPhone6的到来,估计又会有无数土豪成为众人中的焦点,也会有无数人调侃或被调侃:你的肾还够用吗?iPhone6如约到来,钱包鸭梨很大论价格,iPhone必然是手机中的奢侈品,而奢侈品的价值,并不在于产品的功能性本身,而是被赋予了更多品牌.理念.内涵层面的意义.因此,苹果的文化其实也是

人人CEO陈一舟:人人公司有内部孵化新业务能力

摘要: 8月23日消息, 人人 公司CEO 陈一舟 ( 微博 )今日撰写博文谈及人人公司旗下糯米网,陈一舟称O2O台风来了,糯米站到了风口上. 陈一舟指出,糯米迄今为止取得的成果,说明人人公司在 8月23日消息, 人人 公司CEO 陈一舟 ( 微博 )今日撰写博文谈及人人公司旗下糯米网,陈一舟称O2O台风来了,糯米站到了风口上. 陈一舟指出,糯米迄今为止取得的成果,说明人人公司在有一定基因优势情况下,有内部孵化新业务能力. 最直接比较是,在千团大战中,有很多互联网"大爹级"公司出手,投

Hadoop新MapReduce框架Yarn详解

Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式 处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者 可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框 架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 Map