Hadoop日渐成长 引领开源云计算发展

最近各大巨头在云计算方面的投资都非常活跃,从云平台的管理、海量数据分析,到各种新兴的面向消费者的云平台和云服务,各个领域都呈现遍地开花的形式。而以Hadoop为代表的大规模数据处理(BigData Processing)技术的日趋成熟使得“业务为王”向“数据为王”转变。Hadoop社区的繁荣有目共睹。越来越多的国内外公司参与到Hadoop社区开发,或者直接将线上使用的软件开源。

当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug(Hadoop创始人)进来,把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长的用户名单中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP...国内的公司有淘宝、百度等等。

不仅如此,最新消息显示连微软这个软件巨头也在近日向Hadoop敞开了怀抱。在10月12日的西雅图举行的SQL PASS 2011峰会上,微软宣布将于从雅虎分拆出来的Hortonworks合作开发,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台。Hortonworks作为微软的战略合作伙伴将会借助自己在此领域的专长帮助最大化将Hadoop集成到微软的产品之中。

微软表示预计在今年年底可推出基于Hadoop的Windows Azure预览版,而基于Hadoop的Windows Server将在在2012年推出。基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。同时微软官方还证实了SQL Server “Denali”将被正式命名为SQL Server 2012。同时微软还将加大对JavaScript语言的投入,微软将使用JavaScript实现高性能的Map/Reduce。微软承诺将紧密与Hadoop社区合作并积极为Apache软件基金会的项目作出自身的贡献。

微软商业平台事业部高级副总裁Ted Kummert在一份声明中表示此举将帮助微软的客户更好的管理自己的大数据。越来越多的公司正在寻找收集和分析非结构化数据以帮助自身洞察业务的方法。但迄今为止,由于传统关系数据库主要是为处理结构化数据而设计的,其自身固有的特性导致可扩展性不佳。而Hadoop作为一个开源框架对大数据的支持正日益吸引IT主管的目光,Hadoop非常适合处理非结构化数据,如电子邮件内的内容、博客、点击带来的流数据、音频及视频等数据。

当然其他巨头也不甘落后,纷纷有所行动。甲骨文也在最近推出了基于Hadoop的大数据设备以及甲骨文自己的NoSQL数据库和基于开源语言R的分布式数据统计分析系统。就在几天前IBM宣布将收购私营的系统软件公司Platform Computing。此举可帮助IBM将更好地为客户提供服务,帮助它们以更适当的方式管理并分析大规模数据,降低成本和系统复杂度。

提到甲骨文在Hadoop上的最新动向,就不能不说到R语言。R语言作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。

R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发。(也因此称为R)现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。

现在,统计工作者可利用R语言,R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。其主要模仿了Google的BigTable。这基本上等同于使用Hadoop来持有结构化数据的数据库。就像 Apache软件基金会Hadoop项目的子项目HBase一样。

Revolution Analytics公司提供对开源R语言的商用软件扩充以及支援,这使得让统计分析师及科学家能够在短暂的时间内从大量的重要资料中发现有意义的资讯。 Revolution Analytics公司首席技术官David Champagne表示R引擎可部署在Hadoop集群中的每个节点上面。你可以在部署了R的工作组中设置R算法,而不是在Java编程中减少算法。它可解析Hadoop映射函数的节点,同时可并行的统计分析存储在HDFS的数据。

另外,开源的操作系统Ubuntu 11.10服务器版本开始支持Juju(先前代号为Ensemble)预案,该预案提供30多种云端应用程序的自动部署功能,支持MySQL、Tomcat 6与Hadoop等,协助企业加快大规模部署云端应用的程序。

以Hadoop部署为例,IT人员先前必须安装Java程序,透过Java程序安装Hadoop程序,接着设定服务器之间的集群关系。现在IT人员可在11.10版安装Juju程序,只要在命令列输入几项指令就能自动安装Java与Hadoop程序,并建立Hadoop运算集群,让企业能快速建设Hadoop应用。未来IT人员若要扩充集群,只要透过Juju输入指令,就能将新的服务器纳入Hadoop系统。

Twitter也在近期推出了开源实时Hadoop计算系统。这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。

Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。Storm的主工程师Nathan Marz表示:Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好比Hadoop之于批处理。Storm保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。

(责任编辑:刘芬)

时间: 2024-10-24 17:36:22

Hadoop日渐成长 引领开源云计算发展的相关文章

Hadoop日渐成长引领开源云计算发展

最近各大巨头在云计算方面的投资都非常活跃,从云平台的管理.海量数据分析,到各种新兴的面向消费者的云平台和云服务,各个领域都呈现遍地开花的形式.而以Hadoop为代表的大规模数据处理(BigData Processing)技术的日趋成熟使得"业务为王"向"数据为王"转变.Hadoop社区的繁荣有目共睹.越来越多的国内外公司参与到Hadoop社区开发,或者直接将线上使用的软件开源. 当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug(Hadoop创始人

新加坡和中国香港 引领亚太区云计算发展

从2010年起,亚太区成为全球领先云服务提供商的关键目标市场,全球云服务提供商进入亚太区,推动了该区域的需求,同时也加剧了该区域的竞争.Gartner预测,全球云服务收入2011年为894亿美元,2015年将达到1768亿美元,年复合增长率为18.9%:2011年亚太区(除日本)云服务收入仅占全球总收入的3%,为26.82亿美元,2015年占比略微增长至3.7%,达65.42亿美元,年复合增长率为24%:日本是亚太区最大的云服务市场,2011年收入为88.51亿美元,2015年将达到194.48

第四届中国OpenStack Bug Smash在杭州举办,持续引领开源生态发展

华为.英特尔及中国电子技术标准化研究院联合举办的第四届中国OpenStack Bug Smash于7月6日至8日在杭州隆重举行.   OpenStack Bug Smash已逐渐演进成为全球性的社区活动,影响力不断扩大,该活动除了修复代码漏洞为OpenStack高质量版本发布提供有力保障,更重要的意义在于促进开源活动在中国的发展,提高中国在全球开源项目中的影响力.   此次活动中,华为.英特尔和中国电子技术标准化研究院以强大的产业号召力,汇聚了来自英特尔.华为.HPE.PMG.浙大等14家公司和

开源云计算技术系列(五)(崛起的黑马Sector/Sphere 实战篇)

在基于java的hadoop如日中天的时代,开源云计算界有一匹基于C++的黑马,Sector/Sphere在性能方面对hadoop提出了挑战,在Open Cloud Consortium(OCC)开放云计算协会建立的Open Cloud Testbed开放云实验床的软件测试中, Sector is about twice as fast as Hadoop. 本篇先对这匹黑马做一次实战演习,先感受一下,下一篇深入其设计原理,探讨云计算的本质. OCT是一套跨核心10G带宽教育网的多个数据中心的计

开源云计算技术系列(四)(Cloudera安装配置hadoop 0.20最新版配置)

接上文,我们继续体验Cloudera 0.20最新版. wget hadoop-0.20-conf-pseudo_0.20.0-1cloudera0.5.0~lenny_all.deb wget hadoop-0.20_0.20.0-1cloudera0.5.0~lenny_all.deb debian:~# dpkg –i hadoop-0.20-conf-pseudo_0.20.0-1cloudera0.5.0~lenny_all.deb dpkg –i hadoop-0.20_0.20.0

运营商如何利用开源软件发展云计算

云计算降低了用户和企业使用信息化应用的门槛,使IT资源成为像水电一样的社会公共基础设施,运营商作为通信基础设施提供商,从IDC租赁服务提供商升级到云服务提供商是必然选择.目前国内三大运营商已通过各种形式进入云计算市场,大部分采用商业软件集成后对外提供云计算服务的建设模式,相较于国内外其他云计算公司采用自研系统的模式,面临着成本高.维护难等问题.在运营商初期不具有核心研发能力的情况下,如何快速构建自研系统成为运营商发展云计算不可回避的问题. 开源软件的出现给了运营商站在巨人肩膀上的机会,在商业模式

刘利华:我国云计算发展处在重要时刻

本文讲的是刘利华:我国云计算发展处在重要时刻[IT168 资讯]2016年4月12日,由工业和信息化部指导,中国电子信息行业联合会支持,工信部国际经济技术合作中心.中国贸促会电子信息行业分会主办的第四届中国国际云计算技术和应用展览会暨论坛(Cloud China2016)在北京国际会议中心开幕.工业和信息化部副部长刘利华.中国电子信息行业联合会会长王旭东.北京市副市长隋振江.国家信息化专家咨询委员会副主任杨国勋等领导和嘉宾出席当天的全体大会并分别致辞,工信部信息化和软件服务业司巡视员李颖介绍了中

我国云计算发展面临的亟待解决的关键问题

从整个世界范围来看,云计算已然进入了一个务实发展的阶段,全球云计算市场开始保持在一个平稳增长的态势.但是,平稳中隐藏着地区间产业市场的巨大差异.以谷歌领先.开源为主的技术发展格局短期内不会改变,而技术因素则是导致安全事件的主要原因.工业和信息化部电信研究院副院长刘多在近日的"2013国际云计算大会"表示:"我国国内云计算市场虽然一直在高速增长,但增速已经放缓.同时,我国云计算发展也面临着一些亟待解决的关键性问题." 国际市场平稳中蕴藏差异 从国际上看,云计算已经进入

推荐几个开源云计算平台

[IT168 资讯]Abiquo云计算平台 本文讲的是推荐几个开源云计算平台,Abiquo公司帮助用户建立,管理以及扩展复杂的计算架构.具体开源云计算产品有三类,三种产品分别是abiCloud, abiNtense和abiData.这三种产品都可以用来架构和开发公有私有混合云,以及云应用等的基础设施. abiCloud是开源云管理软件,可以创建管理资源并且可以按需扩展. abiNtense是一个类似于Grid的架构,用来减少大量高性能计算的执行时间. abiData 由Hadoop,hBase,