Hadoop 2.0将发布 大数据的新突破在即

以往Hadoop似乎就是大数据的代名词。不过最近随着大数据应用的深入,大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了。

不过这并不一定就是坏事。把Hadoop当作廉价有效的存储正好是Hadoop下一阶段演进的的完美起点。今年夏天就要亮相的Hadoop 2.0将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问。

Hadoop大桶

自成为大数据工具以来,Hadoop就是一个非常棒的数据存储系统,但是需要开发Java应用来访问数据的MapReduce学习起来却比较困难。

当然,还有别的办法可以从Hadoop中获取信息。Hbase数据是Hadoop的一部分,它可以让用户按照数据库范式来处理数据。Hive数据仓库则可以让你用类SQL的HiveSQL查询语言来创建查询并转化为MapReduce任务。不过Hadoop仍受限于单线程性。MapReduce任务、Hive查询、Hbase操作,等等,这些都要轮流进行。

这就是许多大数据供应商倾向于仅将Hadoop当作数据容器的原因,为了提高效率,他们在此基础上再开发自己的工具来获取或分析其中的数据。尽管把Hadoop形容为一个大桶很形象,但是Hadoop用户当中已经有人把它看作是数据大湖甚至数据海洋了。不过光是规模大还是不行的,那些限制影响到了Hadoop的卖点。

Hadoop的开发社区也意识到这个问题,随着Hadoop即将迭代到新的版本,上述限制即将在很大程度上被解除。

YARN解决方案

在Hadoop 2.0发布经理Arun Murthy看来,其最重要的变化是MapReduce框架升级为Apache YARN,这将扩展Hadoop中可以应用的软件种类和应用程度。Arun Murthy本人就是YARN项目主管,他指出,Hadoop 1.0和2.0的区别在于,前者所有的事情都是面向批处理的,而后者则允许多个应用同时在内部访问数据。

相对于当前MapReduce系统能处理的事情,把这些功能分开使得Hadoop集群资源的管理更加强大。其主要管理方式类似于操作系统对任务的处理,也就是说不再有一次一项操作的限制了。

有了YARN,开发者就能够直接在Hadoop内部来开发应用,而不是像许多第三方工具所做的那样,在外面把数据筛选出来。

Murthy称,现在已经有供应商对在YARN框架内开发应用表现出兴趣。Murthy估计,Hadoop 2.0的强力beta版有可能会在今年6月或7月推出,正式版则可能在8月发布。

如果YARN的确能履行其承诺的话,开发者将可以在原生的Hadoop平台里方便地接触到许多的数据大湖大海,令搜寻有用信息的任务更加流畅和便捷。届时,大数据会变得更加有用、更加大众化。

(责任编辑:fumingli)

时间: 2024-10-23 10:17:04

Hadoop 2.0将发布 大数据的新突破在即的相关文章

Hadoop迎来Spark Stream 激发大数据应用新变革

作为数据中心市场毋庸置疑的领导者,英特尔对数据中心的看法吸引了行业人士的密切关注,也在很大程度上代表了行业未来的大趋势. "信息与通讯技术正处在一个激动人心的时代,这集中体现在三个变化上,就是云计算.网络转型以及数据分析,正是这三大变化驱动了数据中心行业的发展."英特尔公司高级副总裁.数据中心事业部总经理柏安娜(DianeM. Bryant)在IDF主题演讲中如此指出.  云将无所不在 作为一项颠覆性技术,云计算已经出现了多年时间,展现出良好的成长性.其一,公有云上的交互会继续增加,例

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

随着IT技术的飞速发展,各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务.目前,医疗IT系统收集了大量极具价值的数据,但这些历史医疗数据并没有发挥出其应有的价值.为此,本文拟利用医院现有的历史数据,挖掘出有价值的基于统计学的医学规则.知识,并基于这些信息构建专业的临床知识库,提供诊断.处方.用药推荐功能,基于强大的关联推荐能力,极大地提高医疗服务质量,减轻医疗人员的工作强度.   二.Hadoop&Spark  目前大数据处理领域的框架有很多.   从计算的角度上看,主要有MapRed

阿里云发布大数据产品ODPS 6小时处理100PB数据

中介交易 SEO诊断 淘宝客 云主机 技术大厅 阿里云发布ODPS 可分析PB级海量数据 新浪科技讯 7月8日下午消息,阿里云计算发布大数据产品--ODPS.通过ODPS在线服务,小型公司花几百元即可分析海量数据.ODPS可在6小时内处理100PB数据,相当于1亿部高清电影.此前,全球掌握这种能力的公司仅有Google.亚马逊等少数几家. 阿里云ODPS团队在一封公开信<人人都可以成为BAT>中表示:工业革命后的200多年里,人类对物理资源的利用登峰造极,对数据资源的利用却仍处于起步阶段.Go

红帽存储2.0蓄势待发 进军大数据市场

关于大数据的概念,业界众说纷纭.其中最著名的是权威研究机构Gartner给出的定义:大数据是超出常用硬件环境和软件工具在可接受的时间内为其用户收集.管理和处理数据的能力.大数据的"大"并非单纯的数据容量,数据的速度.复杂度和多样性都是大数据的关键特征. 大数据往往来自全新的数据源,其中非结构化数据是绝对的主力军.非结构化数据是指那些不方便使用数据库二维逻辑表来表现的数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等.IDC报告指出,全球数据量每

清华大学数据科学研究院与Cloudera联手发布大数据人才教育项目

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利.在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支撑,有效推动了开源社区的用户和贡献者,带动了技术进步与商业发展.而在全球范围内,大数据行业正在面临数据专业人才短缺的困境. 2016年8月5日,清华大学数据科学研究院("清华数科院")宣布与Cloudera合作. Hadoop之父.Cloudera首席架构师Doug Cutting与清华大学数据科学

阿里云发布大数据工具采云间

ZDNet至顶网软件频道消息:阿里云计算发布大数据工具"采云间"--基于ODPS的简易工具解决方案.采云间可大大降低中小型公司大数据分析的门槛. 阿里云发布大数据工具采云间 将支持可视化分析 采云间是一个Web端的在线工具,简称DPC(Data Process Center),内部集成了阿里数据开发者套件和商业智能套件.目前免费公测版本功能,包括数据工厂.任务管理和数据同步:数据工厂主要提供ODPS IDE工具和SQL代码管理功能:任务管理可以实现任务调度和执行监控:数据同步支持本地数

阿里云发布大数据工具采云间 将支持可视化分析

25日,阿里云计算发布大数据工具采云间--基于ODPS的简易工具解决方案.利用采云间,中小型公司不用再购买上百万元的商业智能(BI)软件,大大降低大数据分析的门槛. 采云间是一个Web端的在线工具,简称DPC(Data Process Center),内部集成了阿里数据开发者套件和商业智能套件.目前免费公测版本功能,包括数据工厂.任务管理和数据同步:数据工厂主要提供ODPS IDE工具和SQL代码http://www.aliyun.com/zixun/aggregation/17569.html

十八款Hadoop工具帮你驯服大数据作业

文章讲的是十八款Hadoop工具帮你驯服大数据作业,Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道.这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来.有些项目负责数据管理.有些负责流程监控.还有一些则提供先进的数据存储机制. Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持.在托管集群中提供按时租用服务.为这套开源核心开发先进的功能强化或者将自有工具添加

云栖大会上海峰会20日将发布大数据平台

本文讲的是云栖大会上海峰会20日将发布大数据平台 本月20日,2016云栖大会上海峰会将在上海科技馆召开.云栖大会是目前全球最大规模的云计算大数据行业巡回峰会.作为主办方,阿里云将在此次大会上发布全新的大数据平台,并进一步扩展其混合云生态. 大会主题为"HELLO,DT WORDLD",意指通过大数据技术为企业和公众敲开DT世界的大门.阿里云总裁胡晓明认为,人类正从IT时代走向DT时代.在DT时代,计算成为一种生产能力,而数据会成为最大的生产资料."能否获取这种新能源,大数据