一个电话 改变大数据命运的故事

凌晨3点时, Arun C. Murthy被一个电话弄醒了,公司要求他紧急处理一个软件bug。当时他是雅虎一个的广告定位App的工程师,App运行很缓慢,因为App启用开源数字平台Hadoop时的一串软件代码写得很糟糕。谁也不会想到,这个小bug,数年后却促成了官方Hadoop 2.0的诞生,改变了Hadoop的命运。

虽然是别人写的,但Murthy的工作就是修复它。谁也不会想到,这个小bug,数年后却为Hadoop生成了一个全新的路径;一个几乎和大数据概念几乎等同的软件系统。

今天,Hadoop应用在Facebook、Twitter、eBay、Yahoo等很多公司中,但2007年时,打那个电话之前,它不是这么有能耐的。

Doug Cutting加入雅虎

受Google 2004年白皮书的影响,打电话的一年之前,Doug Cutting和Michael Cafarella创建了Hadoop平台, 后来Doug Cutting加入雅虎,Murthy则被叫去继续研究雅虎的Hadoop问题, 因为他对该系统软件比较有经验。

当时他看了看邀请表示“谁TMD要去用Java写系统软件呢?”但后来还是接受了,但是当天晚上,他又继续诅咒“我TMD没事干嘛去调试别人的Hadoop代码呢?”但之后他发现自己陷入了更深的诅咒,因为他发现处理过后的应用程序(广告定位App)并没有真正意义上地运行Hadoop。

Hadoop实际上是由两部分组成的软件平台,一个叫做Hadoop分布式文件系统的存储系统(HDFS),一个叫MapReduce的处理系统。你可以转储大量的数据在这个系统里面,然后被分布在数十、数百、数千台服务器中,再用MapReduce在集群里把大问题拆分成小问题。这就是 Hadoop的魅力:可以用大量廉价的商品服务器来省钱,而非购买少数昂贵的超级计算机。

不过有个小问题是,有时候开发者希望把数据从其中一个集群抽离出来,不用运行整个MapReduce,这也是当时雅虎广告定位App的问题,当时这个给Murthy的第一感觉是Hadoop需要另一个系统。

Murthy的第一感觉是Hadoop需要另一个系统

当时用临时手段解决了那个bug后,他开始筹谋这怎么彻底解决那个大bug。 从2008到2010年,Hadoop团队一直在关注如何提高Hadoop的安全性和稳定性,使其更具企业特征。许多相关的系统,比如被内置在主要分布集群中的Pig和Hive就是希望打造不用运行MapReduce而查询Hadoop的软件,但其实还是没抽离出MapReduce,其查询只是被译成从 MapReduce的方式罢了。

2010年中的时候,Hadoop团队认为Hadoop是时候改革了,Murthy和所有 Hadoop社区的开发者集结起来准备解决这个老问题,最后成果就是后来加入Hadoop 2.0的YARN附件。

YARN诞生

YARN是一个坐落在HDFS上的系统,支持开发者创建和HDFS互动的应用,无需启动整个MapReduce,Murthy表示:“2.0其实不是一个任意数,是Hadoop第二体系”。

YARN确定使用后,许多新的软件也开始被创建出来进一步补充Hadoop。比如Twitter使用Spark用来实时处理数据;雅虎使用Spark用来处理存储的数据。Cloudera创建了Impala提高了查询Hadoop的速度。

但Murthy表示,只要开发者愿意,他们就可以使用YARN来查询Hadoop,使得整个大数据的系统变得更为有效。

IT检测公司Nodeable就在自己的Storm和Hadoop之间建立了一个整合系统,称为StreamReduce,其副总裁(Appcelerato副总裁,Nodeable被Appcelerator收购 了)表示YARN就是将来他们要进行批处理或者实时处理时需要的东西。

Hadoop 2.0

Spark主要在HDFS上运行,虽然它丢弃了MapReduce,远离了官方的Hadoop,但YARN足够让它们相互联系,如果只想要一个简单的部署,可以不用YARN,但是有的用户喜欢它,愿意安装它。

目前YARN已经存在在不少Hadoop分布中,包括Cloudera分布等。官方Hadoop 2.0开源项目beta版本马上要推出了,完全渗入市场可能还需要一段时间,但是它普及的时候将会带来很大的变化,无论如何,我们要感谢那个凌晨3点的电话。

时间: 2024-11-10 00:23:39

一个电话 改变大数据命运的故事的相关文章

全球正在同步上演一个大片:大数据的速度与激情

"经过50年的发展,人类和数据技术高度整合,这在以前是无法想象的事情.当下正是物联网时代,做好大数据,就是要让数据来讲故事,通过通俗易懂的可视化分析,让人们理解并相信,我们处在一个非常美好的时代--"近日,2016全球大数据应用研究论坛在青岛西海岸新区举行,美国未来之窗科技公司创始合伙人.首席执行官斯考特·克罗索斯基在主题演讲时表达了上述观点. 在为期3天的论坛上,来自国内外的600余位大数据专家学者.行业精英共同发布了<黄岛共识>,认为全球已进入以数据研究应用为导向的&q

一个摄影师的大数据项目

Rick Smolan是著名的摄影师和出版人,曾担任<国家地理>杂志.<时代>杂志.<生活>杂志 Newsweek(新闻周刊)>和<U.S. News & World Report(美国新闻与世界报道)>以及<财富>杂志摄影师,也曾经多次出现在TED和TEDx舞台上,这是他在2007年TED讲述一个难忘的故事:一个韩国美军遗留的混血小女孩儿,一张宿命般的照片和一段跌宕的领养传奇. 他录制有[Creative Inspirations

VR改变大数据的四种方式

文章讲的是VR改变大数据的四种方式,在这个信息爆炸的时代,数据采集正以惊人的速度发展,但我们不一定了解这些数据.目前,大数据就像是一种肆无忌惮的"野兽"--非常复杂.无结构.传统2D屏幕条形图和饼状图已无法分析大数据,也无法帮助我们有效处理大型数据集.根据Forbes研究显示,我们的眼睛每秒仅能处理传统计算机屏幕中100字节的信息,所以我们需要新技术来解决大数据带来的多重挑战,幸运的是,虚拟现实可能正好可以帮助我们解决这些挑战. ▲图片来源于:东方网 自20世纪90年代以来,虚拟现实(

来自中国的一个电话改变了1984年的洛杉矶奥运会

来自中国的一个电话改变了1984年的洛杉矶奥运会.当年的组委会主席尤伯罗思,将怀着深深的感激之情带领美国奥运代表团参加北京奥运会.该报这篇题为<来自中国的电话改变了1984年的奥运会>的文章要点如下: 1984年5月12日深夜一个来自北京的电话让彼得·尤伯罗思终身难忘.他相信,电话那端传来的消息将决定奥运会的命运,不仅是他当时正组织的洛杉矶奥运会,而且包括后来的所有奥运会. 电话线的另一端是查尔斯·李--他派到北京去劝说中国派出第一个奥运代表团的人.尤伯罗思是洛杉矶奥运会的组委会主席,四天前苏

开源改变大数据和云未来 展望2013红帽五件大事

如果说云计算和大数据是当前IT发展两大重要趋势,那开源可以说是这两大趋势的重要的助推剂,毕竟,相当一部分的创新都是来自于开源社区. 2012年,作为行业内实现十亿美元销售额的唯一一家纯开源公司,红帽已经用自身出色的业绩证明了开源在云计算和大数据时代的魅力和潜力.2013年,红帽将如何继续用开源改变大数据和云计算的未来?新的一年,这家以开源为本的公司将给用户带来哪些新的惊喜?本文梳理了2013年值得红帽粉丝们期待的五件事情,以飨读者. 期待一:以RHEL为代表的Linux成为云操作系统 作为一个基

大数据引擎,或改变大数据竞争格局

文/卞海峰 "台风来了,猪都会飞",这是一句耳熟能详的西方谚语,主要描述"机会"的重要性,与中国的古语"时势造英雄"一样.如今的大数据,恐怕就是这样一种"机会",同时这个机会还能帮助我们挖掘出更多的商业机会. 在前不久的百度技术开放日上,百度宣布将正式开放大数据引擎,这也是全球首个开放的大数据引擎.据悉,此次百度开放的大数据引擎主要包含开放云.数据工厂.百度大脑三块,通过这三块可以实现数据的收集.存储.计算.分析.挖掘和管理.

如果云计算是一个容器,大数据就是这个容器里的水

云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的. 1.云计算与大数据是什么关系? 云计算的关键词在于"整合",无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题. 大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这

马云:山西下一个能源是大数据

4月5日消息,今日阿里集团.蚂蚁金服与陕西省政府签署合作协议,在电子政务和大数据.电子商务等领域开展合作.阿里巴巴董事局主席称,"山西下一个能源是大数据!在未来数据时代的产品和技术上,山西具备后发优势." 马云:山西下一个能源是大数据 根据协议,蚂蚁金服将重点关注交通出行.政务服务.医疗支付三大领域,同时在芝麻信用.小微企业融资以及农村金融服务提供助力.未来,山西老百姓将在手机上享受到诸多"最多跑一次"的服务:医院就医挂号.医保支付,搭公交.过高速用手机支付,酒店入

云栖大会不能错过的一个专场——阿里大数据

2017云栖大会 不能错过的一个专场--阿里大数据论坛 系统性揭秘阿里巴巴背后的数据中台,如何从EB级别海量数据中掘金 导语: 将阿里十余年在大数据领域沉淀的技术能力和应用实践对外分享,首次系统性解密阿里大数据体系:构建了从底层的数据采集.处理,到挖掘算法.应用.产品服务的全链路.标准化的大数据体系,使得超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动自身的业务和外部千万用户的发展. 就在10月11日,阿里大数据与您不见不散!