《连线》:MapR——Hadoop商业化的典范

导读:近日美国著名《连线》杂志作者Cade Metz撰写一篇MapR的评论文章。他认为MapR具备了发展Hadoop并成功的必要因素。以下为全文

M.C. Srivas(MapR创始人)帮助构建了Google搜索引擎,他使得Google搜索引擎令人惊讶!

如果用户在Google搜索框中输入“2005款本田雅阁”,Google搜索会善解人意的知道你正在寻找一款合适的家庭级轿车。并且不仅返回给用户有关“本田雅阁”的链接,还会返回一些类似价格的家庭级轿车给用户参考——如大众帕萨特或丰田凯美瑞。

Google可以智能的理清“公寓”和“房子”这两个词汇在搜索之间的区别。而当用户在搜索框输入”new“时,搜索框还会出现类似Visual Studio中IntelliSence功能一样提示“New York”和“New York Times”。

但这并不代表M.C. Srivas只是在赞扬Google的“famous”搜索算法。而在后台支持Google算法的基础设施才是他所认为最值得赞扬的地方。如著名的GFS(Google File System)和Google著名的MapReduce。MapReduce是Google最早提出的且用于大规模数据集并行运算的软件架构。

Google搜索在得益于算法的发挥作用的同时,MapReduce在后台发挥了极大的作用。其通过网络采集了相关的网页,并将其放置在可搜索的索引之中。M.C. Srivas表示“我们在Google所做的工作都是令人感到神奇的,高效的使用数据令我本人都感到震惊”。现今这两项技术已普遍应用在服务器中并用来存储和分析海量的数据。

M.C. Srivas在Google搜索基础设施团队工作了2年,在2009年夏天他选择离开了Google,并创建了公司——MapR。MapR也采用了Google基础设施背后优秀的设计思想(Google GFS和MapReduce),并提供大数据处理的业务。和其他公司一样M.C. Srivas将基于开源的Hadoop产品商品化并进行销售。

但和其他竞争对手不同的是,MapR提供了很多不同于Hadoop的特性,公司还宣称MapR是一个比现有Hadoop分布式文件系统还要快三倍的产品。为了完善MapR,M.C. Srivas带领他的团队花了2年时间重构了Hadoop,并消除了作为大数据处理平台的缺陷。M.C. Srivas向美国《连线》杂志表示“三年前我在公众演讲中谈到了Hadoop存在的问题,而三年后的今天这些问题仍然存在于开源的Hadoop版本中。在某些时候,要做的就是说‘这无法解决’,然后抛弃并重构它,这就是我们在这2年所做的工作”。

在互联网时代,越来越多的数据涌入全球的企业之中。而Hadoop现已成为互联网巨头重塑软硬件以处理日常业务的典范。Hadoop利用廉价的服务器集群分析、处理大量非结构化数据。

当今的一些科技巨头如Microsoft、Oracle以及IBM都提供了结合自身的基于Hadoop的产品。在初创企业中MapR只是其中的一个,Cloudera和Hortonworks也同样引人注目。Cloudera的和Hortwornworks现今也致力于提高开源项目,但其代码是专有的。

这些初创企业对Hadoop的完善都有自身独到之处的一面,同时由于各自产品面临市场激烈的竞争,也不可避免的会对其他厂商的产品不足有所批评。而M.C. Srivas对MapR发展制定透明的计划则有力的驳斥了周围所有指责的声音。同时他表示Hadoop虽然以足够强大,但仍需不断精雕细琢。

MapR与Google相似

实际上Google并没有实际使用Hadoop(Google的云计算基础架构模式包括四个相互独立又紧密结合在一起的系统,包括Google建立在集群之上的文件系统Google File System、针对Google应用程序特点提出的MapReduce编程模式、分布式锁机制Chubby以及Google开发的模型简化的大规模分布式数据库BigTable),而Yahoo!和Facebook的大数据处理平台就是从基于Google研究论文中的内容发展而来的。

Cloudera的COO Kirk Dunn向《连线》表示“Google、Facebook和Yahoo!都已经证明了Hadoop平台正处在黄金时期。Google、Facebook和Yahoo!公司内部的成千上万的节点已经运行多年。虽然Yahoo!和Facebook使用基于Hadoop的成千上万台普通服务器来处理前所未有的海量数据,但大多数企业需要处理的数据量并没有Yahoo!或Facebook那么多,较小的集群平台就足以满足大多数企业的业务的需要。”

同时M.C. Srivas再次强调了开源版Hadoop的不足,例如至今仍然困扰开源版Hadoop的“单节点故障(即如果主节点异常,任务执行情况会丢失,数据可能会损坏)”。Yahoo!和Facebbok则聘请了50至70名工程师来处理诸如此类的事件,而其他公司却没有相关的人员。

M.C. Srivas表示在成立MapR之前他曾经会见过Cloudera的创始人并考虑加入其中。但Cloudera希望以向Red Hat对Linux的策略——既提供支持、服务和围绕开源平台其他软件盈利。而这与M.C. Srivas的理念并不相符。

于是他通过熟人与Calista Systems(虚拟化软件商,2008年初被Microsoft收购)的CEO John Schroeder相识,并于2009年共同创建了MapR公司。现今,MapR的产品已为存储巨头EMC推出的Greenplum HD企业版Hadoop提供技术。

Schroeder与M.C. Srivas在Google就是朋友,并一起致力于完善MapReduce的工作。Schroeder与M.C. Srivas持有相同的观点,Google的成功最大原因是得益于Google的背后基础设施,而不是搜索算法。Schroeder表示Google Mapreduce、GFS和BigTable技术使Google在业界保持领先。

Hadoop的未来

据M.C. Srivas和Schroeder介绍,他们的Hadoop发行版在许多特性上领先其他基于开源Hadoop的发行版。虽然其他人并不这么认为,但这是不争的事实,MapR的产品克服了其他开源版Hadoop的固有缺陷。

Hadoop实现了被称之为HDFS(Hadoop Distributed File System)的分布式文件系统和被称之为MapReduce的大数据运算平台。MapReduce依赖于HDFS实现。通常MapReduce会将目标的计数的数据分为许多小块,HDFS将每个块复制若干份以确保系统的可靠性,同时按照一定的规则将数据块放置在集群中不同的机器上,以便MapReduce在数据宿主机器上进行最快捷的计算。

M.C. Srivas表示在2年的发展期间,MapR基本上重构了文件系统。同时改进了Hadoop的“job tracker”使其能跨机器的任务分配并管理其执行。而Namenode作为是一个中心服务器,负责管理文件系统的Namespace以及客户端对文件的访问。而开源版本的Hadoop仍存在单节点故障和Namenode处理文件数量受限的状况。

Cloudera的Kirk Dunn也承认M.C. Srivas提到的开源Hadoop存在的缺陷,但他表示在评价开源Hadoop具备的优势时,还有一些其他的因素需要考虑。同时开源版的Hadoop也会最终克服固有的缺陷,最终所有代码因为开放而变得独具优势!众所周知,开源的优势可得到社区的广泛支持。你是愿意依靠成百上千的工程师在重要问题上给予支持?还是依靠只有少数精英工程师的公司?

从本质上讲,Hadoop是主要还是一个“批处理”系统。Hadoop需要一段时间处理数据以便得到结果。Hadoop现今还不具备实时生成信息的能力。随着搜索引擎需求的发展,Google已经放弃了MapReduce,并转移到被称之为“Caffeine”的平台之上,新平台可使搜索引擎的速度更快。John Schroeder暗示MapR也在朝类似的“方向”努力,尽管其“解决方案”可能看起来与“Caffeine”非常不同。

M.C. Srivas指出现今的Hadoop与在谷歌内部运行的版本完全不同。除了GFS和MapReduce以外,Google还在其软件层运行着被称之为“Borg”的作业调度和监控系统,其主要负责管理数据中心内的服务器群集。Google现在还没公布“Borg”的相关信息。和所有Google的前员工一样,M.C. Srivas不能透露其详细信息。但M.C. Srivas表示你不能错误的认为Hadoop就是Google的基础设施。像Google这样的公司,他们肯定有他们自己且尚未公布的秘密武器。

Hadoop要想成功就必须继续发展。而MapR已经具备了一切。(李智/编译)

(责任编辑:蒙遗善)

时间: 2024-09-20 11:09:51

《连线》:MapR——Hadoop商业化的典范的相关文章

云计算一周热文回顾:任正非首谈接班人制度

任正非首谈接班人制度:相信华为惯性 华为总裁任正非近期撰写一篇内部文章为轮值CEO鸣锣开道,在这篇文章中,他回顾了自己从个人英雄主义到相信团结就是力量的心路历程,回顾了公司的组织机构从无到有到现在实行轮值CEO的制度的演变,谈及接班人们,他说,"相信华为的惯性,相信接班人们的智慧." 去年,曾有传闻称,任正非为了让儿子任平顺利接班,以10亿元人民币的"分手费"逼走公司董事长孙亚芳,随后华为公司发声明予以否认. 在这篇文章中任正非特别提到在2002年公司内外交困时,&

一篇文看懂Hadoop:风雨十年,未来何去何从

" 我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天.今天和明天,憧憬下一个十年." 本文分为技术篇.产业篇.应用篇.展望篇四部分.   技术篇 2006年项目成立的一开始,"Hadoop"这个单词只代表了两个组件--HDFS和MapReduce.到现在的10个年头,这个单词代表的是"核心"(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统.这个和Linux

Hadoop history

*The genesis of Hadoop came from the Google File System paper[11] that was published in October 2003. This paper spawned another research paper from Google – MapReduce: Simplified Data Processing on Large Clusters.[12] Development started on the Apac

大数据来袭 传统IT厂商紧握Hadoop机遇

本文讲的是大数据来袭 传统IT厂商紧握Hadoop机遇,大数据时代已经来临,并悄悄的影响着我们的生活.根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布.Facebook和其他所有互联网网站.互联网应用,已经逐渐变成了整个数据采集.分析.处理.增值的数据架构. 在中国,社交网络同样如火如荼.新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博.

大数据与Hadoop:并不能简单划等号

当前,我国已经进入大数据时代,在这样的时代背景下,Hadoop的应用也逐渐深入,正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业.虽然目前Hadoop应用场景还是以日志存储.查询和非结构化数据处理为主,但是Hadoop技术的不断成熟以及生态系统相关产品的完善,包括Hadoop对SQL不断加强的支持,以及主流商业软件厂商对Hadoop支持的不断增强,会带动Hadoop 渗透到越来越多的应用场景中. 2013年是中国大数据的应用落地年,越来越多的行业用户开始重视并启动大数据相关的项目.

交友网站的线下生意何以衍生?

中介交易 SEO诊断 淘宝客 云主机 技术大厅 [i天下网商注]在中国,婚姻是一门重要的大生意.可惜,这门大生意过去除了游击队式的小店之外,唯有几家互联网企业经营婚姻生意,而且大多不赚钱-直到婚姻市场020模式的出现.百合网的实体店已经在全国逾70座城市开店120家.另一位婚恋交友网站世纪佳缘从2013年5月份开始推广线下服务店,亦迅速扩张至超过40家.线下生意是如何衍生的呢? 文/杨冠宇 编辑/天下网商 马晓丹 在中国,婚姻是一门重要的大生意.可惜,这门大生意过去除了游击队式的小店之外,唯有几

解读:分布式计算平台Hadoop 发展现状

雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析 大量数据的分布式计算平台hadoop,现在大家也称云计算平台,用他儿子的玩具大象命名,并把它交给阿帕奇软件基金会.鉴于围绕Hadoop建立的整个行业的迅速,这会使某些人 觉得非常惊讶,那就是阿帕奇软件基金会最近才推出了Apache Hadoop 1.0--被 认为是足够 稳定而成为"企业就绪"的第一个版本. Hadoop乱象 雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析大量数据的平台,用他

做Hadoop的最佳拍档

一边积极推出商业版 Hadoop,一边积极投资基于Hadoop发展的大数据分析管理软件商Cloudera,当英特尔近期突然宣布将把这"两条线"合二为一,推出更接地气 的"融合版"Hadoop之时,这个芯片之王在大数据市场的精巧布局和野心也随之露出锋芒--它要打造最适合Hadoop的服务器芯片系统,它要做大数据 时代的王者. 在方兴未艾的大数据市场,基础架构厂商的商机,毋庸置疑地来自它们与正被广泛使用的开源系统--Hadoop之间的联系. 从2009年开始,全面拓展大

思维转变:大数据不等于Hadoop

03月17日 北京消息:IDC近期发布的<中国Hadoop MapReduce生态系统分析>报告指出,在中国,Hadoop 应用正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业.虽然目前Hadoop应用场景还是以日志存储.查询和非结构化数据处理为主,但是Hadoop技术的不断成熟以及生态系统相关产品的完善,包括Hadoop对SQL不断加强的支持,以及主流商业软件厂商对Hadoop支持的不断增强,会带动Hadoop 渗透到越来越多的应用场景中. 2013年是中国大数据的应用落地年,