Hadoop 2终问世:大数据向前迈出一大步

Apache软件基金会终于推出了最新的Hadoop 2数据分析平台。Hadoop 2通过支持YARN数据处理和服务引擎,增强了它的计算引擎,同时为Hadoop File System (HDFS)添加高可用特性。

尽管一些Hadoop发行版中已经对HDFS进行了升级,例如Cloudera,而且一些公司如Pivotal也提供YARN支持有半年的时间了,但是Apache公开发布这个版本将为用户处理数据提供更强的信心。

Pivotal公司首席科学家Milind Bhandarkar表示:“全面发布的功能特性让用户能够确保这些面向用户的API和YARN协议是稳定的,在Hadoop下一代主要版本出现之前不会发生变化,这也是的仍然更放心地构建应用和使用这些API。”

YARN带来了巨大的改变,改变了Hadoop计算组件(MapReduce)切分和重新组成处理任务的方式,因为YARN将MapReduce的追踪组件切分成两个不同部分:资源管理器,以及应用调度。

这让数据整理工具更轻松地同时运行MapReduce或者Storm这样的任务,以及HBase等服务。

Hadoop共同创始人之一Doug Cutting表示:“它使得其他不是MapReduce的工作负载现在可以更有效地与MapReduce分享资源。现在这些系统可以动态地分享资源,资源也可以设置优先级。”

Cuuting和Bhandarkar都承认,这种方法是受到了Apache项目“Mesos”集群管理系统以及谷歌Borg和Omega秘密项目的一些影响。

Bhandarkar表示:“我得说,一方面Borg/Omega框架是级别稍低一些的框架,用于资源分配和资源管理。另一方面,Borg/Omega在数据中心的规模上能做得比YARN更好。”

YARN能带给Hadoop的是,将Hadoop变成一个更原生的平台,运行大量数据为主导的应用和服务,帮助将Hadoop系统从一个数据处理系统变成一个涵盖了完整数据中心操作系统的软件生态型,Cutting这样表示。

Pivotal公司Cloud Foundry部门产品负责人James Watters表示:“YARN开放了Hadoop的分布式处理能力,使其更加定制化,比单纯专注于MapReduce的最初部署更具扩展性。”

Hadoop 2中增加的另一项功能是HDFS Federation,让一个HDFS能够在一个集群内拥有多个命名空间。这提高了系统作为一个整体的可用性,将不同应用彼此之间个离开,并通过消除单个命名节点瓶颈提高文件系统吞吐量。

Cutting预测Hadoop将有一个美好的前景,并为雅虎在21世纪初孕育出这头黄色大象至今走过这么多年头而感到惊讶。

“现在它已经成长为一款针对数据中心的操作系统,支持广泛的应用——这是我当初无法想象的。开源将成为释放Hadoop技术技术、推动普及的最佳途径,我对此充满信心。”


原文发布时间为:2013-10-18


时间: 2025-01-14 14:46:40

Hadoop 2终问世:大数据向前迈出一大步的相关文章

IBM面向Hadoop的PureData推大数据机

随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显.为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求. IBM软件信息管理部门总经理Bob Picciano表示: 企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用. 在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visi

卢东明:Hadoop不能适用所有大数据场

文章讲的是卢东明:Hadoop不能适用所有大数据场,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下: ▲SAP亚太区数据库解决方案技术

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,大讲台了解这一情况后专门在网上开通了这一门大数据培训课程,下面来介绍一下关于Hadoop环境中管理大数据存储技巧吧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能. 虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上.但这也

国内首个Hadoop一站式产品 直面大数据

本文讲的是国内首个Hadoop一站式产品 直面大数据,2012年5月31日消息,精诚集团今天正式发布Big Data解决方案品牌Etu.作为国内首个基于Hadoop的Appliance产品,Etu能够为用户提供软硬结合的端到端的大数据一体化解决方案,协助企业从每天大量涌现的数据中发掘商业智能,找出更多潜在的商机.精诚云中心暨Etu负责人蒋居裕.中科院计算所.Hadoop China的发起人查礼博士.Etu首席顾问陈昭宇出席了发布会,并发表主题演讲,介绍了Etu产品特点.大数据发展对企业的影响,以

Hadoop不是解决大数据问题的唯一方案

第1页:对于大数据的渴望 hadoop通常被认定是能够帮助你解决所有问题的唯一方案. 当人们提到"大数据"或是"数据分析"等相关问题的时候,会听到脱口而出的回答:hadoop!实际上hadoop被设计和建造出来,是用来解决一系列特 定问题的.对某些问题来说,hadoop至多算是一个不好的选择.对另一些问题来说,选择hadoop甚至会是一个错误.对于数据转换的操作,或者更广泛 意义上的抽取-转换-装载的操作(译者注:extraction transformation

联通黄文良:“Hadoop+至强”应对大数据

7月24日,以"芯动大数据,智领大机遇"为主题的英特尔大数据论坛在北京举行.中国联通研究院副院长黄文良先生在大会上介绍了联通应用英特尔Hadoop发行版和基于英特尔至强处理器平台的服务器应对大数据挑战的真实案例. 伴随着智能手机的普及,广大用户利用手机上网和社交越来越频繁,这由此也带来了一个新的挑战:用户想清清楚楚了解自己的上网流量究竟用在了哪里?在这种状况下,联通从去年开始部署针对移动互联网用户的上网记录.和其他运营商以省为单位不同,联通是在全国部署了一套上网记录查阅系统,用户可以通

Hadoop之父勾勒大数据平台的未来

Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架.Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架构师)Doug Cutting表示,他相信Hadoop有一个超越批处理的未来. Cutting表示:"批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体.Hadoop将成为企业未来的主流数

Hadoop平台管理的大数据建立索引的方法和指南

具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere® BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer.InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据. 如果您关注过许多围绕大数据的早期案例分析,您可能相信 "您根本不知道您不知道什么" 的说法.确实,大数据应用程序常常专注于从平时可能出于多种原因而导致被丢弃或忽略的数据中收集

当Hadoop SQL工具与大数据框架携手同行

目前,SQL-on-Hadoop的采用率仍然偏低,但是其发展似乎是与Hadoop本身的采用有着相似的步调.2015年由IT研究和教育机构TDWI进行的一项对新兴技术的调查证实了这一结论. 在320位受访者中只有16%的人表示他们所在的企业正在使用商业SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分: 344位受访者中有22%的人说Hadoop SQL技术正用于管理数据.在后一种情况中,部署水平与前一种是接近的,而这也符合调查当时以及计划三年内的情况,这表明大多数Hadoop用户同