大象的崛起!Hadoop七年发展风雨录

在互联网这个领域一直有这样的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候,招聘了Doug(Hadoop创始人),把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。

  从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP...国内的公司有淘宝、百度等等。

  本文将对Hadoop七年(2004-2011)的发展历程进行梳理。读完本文后,将不难看出,Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地使用、贡献和完善,形成一个强大的生态系统,从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的最佳解决方案,开始受到许多IT厂商的关注,从而出现了许多Hadoop的商业版以及支持Hadoop的产品,包括软件和硬件。

  在互联网这个领域一直有这样的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候,招聘了Doug(Hadoop创始人),把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。

  从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP...国内的公司有淘宝、百度等等。

  本文将对Hadoop七年(2004-2011)的发展历程进行梳理。读完本文后,将不难看出,Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地使用、贡献和完善,形成一个强大的生态系统,从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的最佳解决方案,开始受到许多IT厂商的关注,从而出现了许多Hadoop的商业版以及支持Hadoop的产品,包括软件和硬件。

  2004年,Google发表论文,向全世界介绍了MapReduce。

  2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作的MapReduce应用。

  2005年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS(Nutch Distributed File System )来运行。

  2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

  2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

  2007年,百度开始使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理。

  2007年,中国移动开始在“大云”研究中使用Hadoop技术,规模超过1000台。

  2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB,包含了1100台机器,每天处理约18000道作业,扫描500TB数据。

  2008年1月,Hadoop成为Apache顶级项目。

  2008年2月,Yahoo!宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

  2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序 ,比上一年的纪录保持者保持的297秒快了将近90秒。

(责任编辑:蒙遗善)

时间: 2025-01-21 06:07:59

大象的崛起!Hadoop七年发展风雨录的相关文章

Twitter 经历七年发展,终于宣告在今晚登陆纽交所上市

摘要: 11月7日消息 Twitter 经历七年发展,终于宣告在今晚登陆纽交所上市. 知名IT经理人王冠雄今日在接受DoNews专访时表示,Twitter成功上市为整个市场带来一针强心剂,毕竟与Twitter同体量的 11月7日消息Twitter 经历七年发展,终于宣告在今晚登陆纽交所上市. 知名IT经理人王冠雄今日在接受DoNews专访时表示,Twitter成功上市为整个市场带来一针强心剂,"毕竟与Twitter同体量的企业有很多早已选择上市,我个人认为Twitte的市值会有高起表现.&quo

交换技术从传统二层到七层发展综述

网络技术发展迅猛,以太网占据了统治地位.为了适应网络应用深化带来的挑战,网络的规模和速度都在急剧发展,局域网的速度已从最初的10Mbit/s提高到100Mbit/s,千兆以太网技术也已得到了普遍应用. 对于用户来说,在减低成本的前提下,保证网络的高可靠性.高性能.易维护.易扩展,与采用何种组网技术密切相关:对于设备厂商来说,在保证用户网络功能实现的基础上,如何能够取得更为可观的利润,采用组网技术的优劣,成为提高利润的一个手段. 在具体的组网过程中,是使用已经日趋成熟的传统的第2层交换技术,还是使

互联网迅猛崛起 IDC能否迎来发展高峰期?

  在我国互联网欣欣向荣之际,IDC市场也热闹非凡,近日,笔者了解到,我国金牌域名注册商时代互联(www.now.cn/special/summer/)悄然启动了"特价黄金期"活动,此次活动最引人注目的是"预存500元送150元,新用户享有低折扣购买",想来时代互联为举办这次活动已经精心筹备多时.目前我国IDC市场存在一定的发展空间,很多提供商纷纷推出各种各样活动满足市场需求,在这种情形下我国互联网能否快速稳定地发展,其中IDC行业就起着重要的作用. 中国互联网快速

互联网迅猛崛起 IDC能否迎来发展高峰期_IT 业界

近日,笔者了解到,我国金牌域名注册商时代互联(www.now.cn/special/summer/)悄然启动了"特价黄金期"活动,此次活动最引人注目的是"预存500元送150元,新用户享有低折扣购买",想来时代互联为举办这次活动已经精心筹备多时.目前我国IDC市场存在一定的发展空间,很多提供商纷纷推出各种各样活动满足市场需求,在这种情形下我国互联网能否快速稳定地发展,其中IDC行业就起着重要的作用. 中国互联网快速发展,基础设施不能落伍.相关报道显示,2009年上半

Hadoop日渐成长引领开源云计算发展

最近各大巨头在云计算方面的投资都非常活跃,从云平台的管理.海量数据分析,到各种新兴的面向消费者的云平台和云服务,各个领域都呈现遍地开花的形式.而以Hadoop为代表的大规模数据处理(BigData Processing)技术的日趋成熟使得"业务为王"向"数据为王"转变.Hadoop社区的繁荣有目共睹.越来越多的国内外公司参与到Hadoop社区开发,或者直接将线上使用的软件开源. 当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug(Hadoop创始人

风起云涌:Hadoop应势崛起 催生云连接器

文章讲的是风起云涌:Hadoop应势崛起 催生云连接器,2011年,云计算带热大数据,2012年,大数据则将炒高Hadoop. 2011年大数据技术已经站在了存储领域的风口浪尖上,各种分析研究所指的数据爆炸趋势,使得大数据不可避免地成了众多厂商的一个新宣传点以及战略目标,提醒人们要换个角度思考PB级存储. EMC.IBM.惠普.Oracle.NetApp在内的主流存储厂商都铺开了自己的大数据策略,就像当年云计算的风靡一样,大数据领域变得越来越拥挤,厂商纷纷在调整各自的定位与战略以抢占先机. 那么

开源Hadoop发展迅猛 用户与厂商各取所需

就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构.多年来,开源初创公司Cloudera和Hortonworks在 Hadoop市场一直占有绝对地位,诸如Oracle.微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的Hadoop初创公司建立伙伴关系间接地参与市场争夺. 大数据核心(图片来源google) 根据Forrester分析的最新报告,传统技术供应商会推出一系列强势的产品战略,即使所推出的Hadoop产品仍有许多有待完善的地方.但厂商们却希望提供基

Hadoop崛起,带热云连接器

云计算带热大数据,大数据炒高Hadoop. 前几年的数据技术就已经站在了存储领域的尖端,各种分析研究所指的数据的爆炸趋势,使得大数据不可避免的成了众多厂商的一个新宣传点或者说是战略目标,提醒人们要换个角度去思考PB级的存储. EMC.IBM.惠普.Oracle.NetApp在内的主流存储厂商都铺开了自己的大数据计划,就像当年云计算的风风火火一样,大数据领域变得更加拥挤,厂商纷纷在调整各自的定位与战略以抢占先机. 那么,2012年大数据领域将会有什么新的变化和动向呢?我们看到,大数据厂商的成长,正

大讲台浅谈什么是Hadoop及如何学习Hadoop

首先hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序.HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据. Hadoop的框架最核心的设计就是:HDFS和MapRe