最近各大巨头在云计算方面的投资都非常活跃,从云平台的管理、海量数据分析,到各种新兴的面向消费者的云平台和云服务,各个领域都呈现遍地开花的形式。而以Hadoop为代表的大规模数据处理(BigData Processing)技术的日趋成熟使得“业务为王”向“数据为王”转变。Hadoop社区的繁荣有目共睹。越来越多的国内外公司参与到Hadoop社区开发,或者直接将线上使用的软件开源。
当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug(Hadoop创始人)进来,把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长的用户名单中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP...国内的公司有淘宝、百度等等。
不仅如此,最新消息显示连微软这个软件巨头也在近日向Hadoop敞开了怀抱。在10月12日的西雅图举行的SQL PASS 2011峰会上,微软宣布将于从雅虎分拆出来的Hortonworks合作开发,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台。Hortonworks作为微软的战略合作伙伴将会借助自己在此领域的专长帮助最大化将Hadoop集成到微软的产品之中。
微软表示预计在今年年底可推出基于Hadoop的Windows Azure预览版,而基于Hadoop的Windows Server将在在2012年推出。基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。同时微软官方还证实了SQL Server “Denali”将被正式命名为SQL Server 2012。同时微软还将加大对JavaScript语言的投入,微软将使用JavaScript实现高性能的Map/Reduce。微软承诺将紧密与Hadoop社区合作并积极为Apache软件基金会的项目作出自身的贡献。
微软商业平台事业部高级副总裁Ted Kummert在一份声明中表示此举将帮助微软的客户更好的管理自己的大数据。越来越多的公司正在寻找收集和分析非结构化数据以帮助自身洞察业务的方法。但迄今为止,由于传统关系数据库主要是为处理结构化数据而设计的,其自身固有的特性导致可扩展性不佳。而Hadoop作为一个开源框架对大数据的支持正日益吸引IT主管的目光,Hadoop非常适合处理非结构化数据,如电子邮件内的内容、博客、点击带来的流数据、音频及视频等数据。
当然其他巨头也不甘落后,纷纷有所行动。甲骨文也在最近推出了基于Hadoop的大数据设备以及甲骨文自己的NoSQL数据库和基于开源语言R的分布式数据统计分析系统。就在几天前IBM宣布将收购私营的系统软件公司Platform Computing。此举可帮助IBM将更好地为客户提供服务,帮助它们以更适当的方式管理并分析大规模数据,降低成本和系统复杂度。
提到甲骨文在Hadoop上的最新动向,就不能不说到R语言。R语言作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。
R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发。(也因此称为R)现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。
现在,统计工作者可利用R语言,R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。其主要模仿了Google的BigTable。这基本上等同于使用Hadoop来持有结构化数据的数据库。就像 Apache软件基金会Hadoop项目的子项目HBase一样。
Revolution Analytics公司提供对开源R语言的商用软件扩充以及支援,这使得让统计分析师及科学家能够在短暂的时间内从大量的重要资料中发现有意义的资讯。 Revolution Analytics公司首席技术官David Champagne表示R引擎可部署在Hadoop集群中的每个节点上面。你可以在部署了R的工作组中设置R算法,而不是在Java编程中减少算法。它可解析Hadoop映射函数的节点,同时可并行的统计分析存储在HDFS的数据。
另外,开源的操作系统Ubuntu 11.10服务器版本开始支持Juju(先前代号为Ensemble)预案,该预案提供30多种云端应用程序的自动部署功能,支持MySQL、Tomcat 6与Hadoop等,协助企业加快大规模部署云端应用的程序。
以Hadoop部署为例,IT人员先前必须安装Java程序,透过Java程序安装Hadoop程序,接着设定服务器之间的集群关系。现在IT人员可在11.10版安装Juju程序,只要在命令列输入几项指令就能自动安装Java与Hadoop程序,并建立Hadoop运算集群,让企业能快速建设Hadoop应用。未来IT人员若要扩充集群,只要透过Juju输入指令,就能将新的服务器纳入Hadoop系统。
Twitter也在近期推出了开源实时Hadoop计算系统。这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。Storm的主工程师Nathan Marz表示:Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好比Hadoop之于批处理。Storm保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
本次专辑我们就将对Hadoop七年(2004-2011)的发展历程进行梳理。在对Hadoop的发展进行了详细了解后,读者们将不难看出,Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地使用、贡献和完善,形成一个强大的生态系统,从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的最佳解决方案,开始受到许多IT厂商的关注,从而出现了许多Hadoop的商业版以及支持Hadoop的产品,包括软件和硬件。
那么Hadoop在海量数据处理方面究竟有什么杀手锏能让众多巨头如此追捧呢?事实上,Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。本次专辑将主要介绍Hadoop上基于MapReduce的一个多维数据分析平台。
使用Hadoop进行多维分析,首先能解决上述维度难以改变的问题,利用Hadoop中数据非结构化的特征,采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中,这样可以在冗余维度下灵活地改变问题分析的角度。其次利用Hadoop MapReduce强大的并行化处理能力,无论OLAP分析中的维度增加多少,开销并不显著增长。换言之,Hadoop可以支持一个巨大无比的Cube,包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显著影响分析的性能。更多详细内容我们将在本次专辑中为大家带来……
Hadoop称得起开源创新领域的杰出典范。事实上,正如思科公司的James Urquhart所推断:“Hadoop可以说是不涉及任何现有专利的开源项目在企业软件方面所取得的首个里程碑式成功。”尽管里程碑不只这么一个,但能够以这样的规模将成功果实迅速扩展的例子还真不多见。
正是因为这样,我们欣喜地看到,学界对Hadoop的研究热情不减,今年的VLDB上就出现了数篇与MapReduce/Hadoop相关的论文。这说明Hadoop还有很多可完善可改进的地方。另一方面,一些商业软件也在向Hadoop技术靠拢,兼容Hadoop软件栈。同时,国内外出现了一批以提供Hadoop技术咨询和服务的公司,Hadoop大规模数据处理技术的商业价值逐渐得到业界的重视。
而我们国内对Hadoop的开发、研究和探索也显示出极大的热情。由中国科学院计算技术研究所主办的 Hadoop中国2011云计算大会(Hadoop in China 2011,HiC2011)将于12月2日至3日在北京会议中心召开,这将是Hadoop in China社区的一次年度技术盛会! 大会将联合国际和国内Hadoop及云计算技术应用的成功企业,并引入国际研究界对于云计算及DISC(Data Intensive Super Computing)研究方向的学术观点。通过技术应用和科学研究双重视角审视云计算技术及Hadoop开源生态系统的现状和发展趋势。
经过3年的培育,以Hadoop中国大会为窗口的中国Hadoop开源志愿者社区业已形成。Hadoop中国大会起源于2008年在中科院计算所举办的Hadoop开发者技术沙龙,其主旨在于推广Hadoop技术及其应用,理解互联网应用对云计算技术的实际需求,发扬开源精神,搭建Hadoop技术爱好者之间的交流平台。
本次大会内容丰富,亮点颇多。大会特别邀请了Lucene、Nutch、Hadoop等开源软件创始人、Apache软件基金会主席兼Apache Hadoop项目负责人Doug Cutting先生,Condor创始人University of Wisconsin–Madison的Miron Livny教授,以及来自Google、Facebook等国内外著名互联网公司和IT企业的学者和资深开发人员到场演讲并进行技术交流,部分专家是首次来中国访问。
大约五、六年以前Apache Hadoop只是一个包含20个节点的原型系统。从那时起雅虎开始致力于Apache Hadoop项目,组建了团队并在过去的时间里一直专注于Apache Hadoop项目的推动工作。经过几年的努力,目前的形势一片大好,新闻媒体对Hadoop很感兴趣,数以千计的公司或部门已经广泛采用了Hadoop。而当雅虎建立Hortonworks公司,开始单独推广Hadoop后,推动Hadoop技术继续前进并围绕Hadoop实现新特性、新技术角色的时机了也到来了。那么迎接Hadoop的将是什么样的未来呢?还是让我们一起拭目以待吧!
大象的崛起:Hadoop七年发展风雨录
在互联网这个领域一直有这样的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”。当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug(Hadoop创始人)进来,把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。
Hortonworks CEO:一半数据采用Hadoop
在被任命为Hortonworks CEO之前,Eric Baldeschwieler在雅虎负责Apache Hadoop项目,将其从20个节点的原型系统发展为42000个节点的服务。Eric Baldeschwieler曾经是Inktomi公司Web服务引擎的技术领导者,该公司在2003年被雅虎收购。在采访中,Eric Baldeschwieler表示,未来五年内全世界一半的数据将采用Hadoop,以下是对Eric Baldeschwieler进行访谈的内容。
R语言为Hadoop集群数据统计分析带来大变化
R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发。 12下一页