Hadoop的辉煌还能延续多久?

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的地位似乎一时难以动摇。

谷歌文件系统与MapReduce

我们先来探讨一下Hadoop的灵魂——MapReduce。面对数据的爆炸性增长,谷歌的工程师Jeff Dean和Sanjay Ghemawat架构并发布了两个开创性的系统:谷歌文件系统(GFS)和谷歌MapReduce(GMR)。前者是一个出色而实用的解决方案-使用常规的硬件扩展并管理数据,后者同样辉煌,造就了一个适用于大规模并行处理的计算框架。

谷歌MapReduce(GMR)为普通开发者/用户进行大数据处理提供了简易的方式,并使之快速、具备容错性。谷歌文件系统(GFS)和谷歌MapReduce(GMR)也为谷歌搜索引擎对网页进行抓取、分析提供了核心动力。

再回头看看开源世界中的Hadoop,Apache Hadoop的分布式文件系统(HDFS)和Hadoop MapReduce完全是谷歌文件系统(GFS)和谷歌MapReduce(GMR)的开源实现。Hadoop项目已经发展成为一个生态系统,并触及了大数据领域的方方面面。但从根本上,它的核心是MapReduce。

Hadoop是否可以赶超谷歌?

一个有趣的现象是,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。事实上,我们谈论的这些技术早就不是新技术了,MapReduce也不例外。

我希望在后Hadoop时代下面这些技术能够更具竞争性。尽管许多Apache社区的项目和商业化Hadoop项目都非常活跃,并以来自HBase、Hive和下一代MapReduce(YARN)的技术不断完善着Hadoop体系,我依然认为,Hadoop核心(HDFS和Zookeeper)需要脱离MapReduce并以全新的架构增强自己的竞争力,真正与谷歌技术一较高下。

过滤不断增长的索引,分析不断变化的数据集。Hadoop的伟大之处在于,它一旦开始运行,就会飞速地分析你的数据。尽管如此,在每次分析数据之前,即添加、更改或删除数据之后,我们都必须将整个数据集进行流式处理。这意味着,随着数据集的膨胀,分析时间也会随之增加,且不可预期。

那么,谷歌又是怎么做到搜索结果越来越实时呈现呢?一个名为Percolator的增量处理引擎取代了谷歌MapReduce(GMR)。通过对新建、更改和已删除文档的处理,并使用二级索引进行高效的分类、查询,谷歌能够显著地降低实现其目标的时间。

Percolator的作者写道:“将索引系统转化为一个增量系统……文档平均处理延迟的因子降低到了现在的100。”这句话的意思是,索引Web上新内容的速度比之前MapReduce系统快了100倍。

谷歌Dremel即时数据分析解决方案

谷歌和Hadoop社区曾致力于构建基于MapReduce的易用性即时数据分析工具,如谷歌的并行处理语言Sawzall,Apache Pig和Hive。但对熟知SQL的人们而言,他们忽略了一个基本事实-构建MapReduce的目标就在于管理数据处理工作。它的核心能力在于工作流管理,而不是即时数据分析。

与之形成鲜明对比的是,很多BI或数据分析查询基本上都要求即时、交互和低延迟。这意味着,使用Hadoop不仅需要规划流程图,而且需要为许多查询分析裁减不必要的工作流。即便如此,我们也要花费数分钟等待工作开始,然后花费数小时等待工作流完成,并且这个过程也非常不利于交互式体验。因此,谷歌研发了Dremel予以应对。Dremel是Google 的“交互式”数据分析系统,可以在几秒钟内处理PB级别的数据,并能轻松应对即时查询。

Google Dremel的设计特点:

Dremel是一个可扩展的大型系统。在一个PB级别的数据集上面,将任务缩短到秒级,无疑需要大量的并发。磁盘的顺序读速度在100MB/S上下,那么在1S内处理1TB数据,意味着至少需要有1万个磁盘的并发读! Google一向是用廉价机器办大事的好手。但是机器越多,出问题概率越大,如此大的集群规模,需要有足够的容错考虑,保证整个分析的速度不被集群中的个别节点影响。

Dremel是MapReduce的补充。和MapReduce一样,Dremel也需要GFS这样的文件系统作为存储层。在设计之初,Dremel并非是MapReduce的替代品,它只是可以执行非常快的分析,在使用的时候,常常用它来处理MapReduce的结果集或者用来建立分析原型。

Dremel的数据模型是嵌套的。互联网数据常常是非关系型的。Dremel还需要有一个灵活的数据模型,这个数据模型至关重要。Dremel支持一个嵌套的数据模型,类似于JSON。而传统的关系模型,由于不可避免的有大量的JOIN操作,在处理如此大规模的数据的时候,往往是有心无力的。

Dremel中的数据是采用列式存储的。使用列式存储,分析的时候,可以只扫描需要的那部分数据的时候,减少CPU和磁盘的访问量。同时列式存储是压缩友好的,使用压缩,可以综合CPU和磁盘,发挥最大的效能。

Dremel结合了Web搜索和并行DBMS的技术。Dremel借鉴了Web搜索中的“查询树”的概念,将一个相对巨大复杂的查询,分割成较小较简单的查询。大事化小,小事化了,能并发的在大量节点上跑。另外,和并行DBMS类似,Dremel可以提供了一个SQL-like的接口,就像Hive和Pig那样。

谷歌的图数据计算框架Pregel

谷歌MapReduce是专门为抓取、分析世界上最庞大的图形架构-internet而设计的,但针对大规模图算法(如图遍历(BFS)、PageRank,最短路径(SSSP)等)的计算则显得效率低下。因此,谷歌构建了Pregel。

Pregel给人的印象非常深刻。Pregel不仅能高效执行SSSP或PageRank算法,更令人惊讶的是,公布的数据显示Pregel处理一个有着几十亿节点、上万亿条边的图,只需数分钟即可完成,其执行时间随着图的大小呈线性增长。

Pregel基于BSP模型,就是“计算”-“通信”-“同步”的模式:

输入输出为有向图

分成超步

以节点为中心计算,超步内每个节点执行自己的任务,执行节点的顺序不确定

两个超步之间是通信阶段

在Pregel中,以节点为中心计算。Step 0时每节点都活动着,每个节点主动“给停止投票”进入不活动状态。如果接收到消息,则激活。没有活动节点和消息时,整个算法结束。容错是通过检查点来做的。在每个超步开始的时候,对主从节点分别备份。

总结

尽管当前大数据技术的核心依然是Hadoop,但谷歌却已经为我们展现了许多更先进的大数据技术。谷歌开发这些技术的本意并不是要立刻抛弃掉MapReduce,但毫无疑问这是未来大数据技术的趋势。尽管已经出现了上述大数据技术的开源实现,但我们不禁要问,Hadoop的辉煌还能延续多久?

时间: 2024-12-18 20:06:44

Hadoop的辉煌还能延续多久?的相关文章

中国LED还能疯狂多久

背光市场饱和 照明远未普及 王如晨 "中国LED行业最缺什么呢?不是钱,也不是机器,而是工程师."5月10日,德豪润达董事长王冬雷在上海说,中国企业正在全世界四处找人,抢"会开炉子的工程师",为此付出了"双倍再双倍"的价钱.他是来参加全球第二大LED设备供应商Veeco培训中心落地仪式的.他被列为第一个发言的企业代表,他大夸Veeco雪中送炭.Veeco全球CEO Peeler在台下有点掩饰不住得意. Peeler得意有理由,Veeco去年在中国

互联网的拿来主义还可以坚挺多久?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 曾几何时,开心网火了,山寨开心如雨后春笋般成长.时至今日,微博缔造了互联网关注新平台,又有多少人对其虎视眈眈?然而拿来主义还可以坚挺多久呢?百度的太阳风暴持续至今,又打到了多少伪品牌?而这一切,也仅仅是刚刚开始.人道是,互联网创业难,难创业,高淘汰点,但为何被淘汰?纵然在社会竞争中,一个企业若只懂复制复制再复制,无属于自甚的核心竞争力,也必然

苹果还能红多久

苹果还能红多久? 苹果和乔布斯的一举一动都牵动着所有粉丝的神经. 苹果公司到底凭借什么构建了这样一种神奇的力量?我们试图从硬件帝国.操作系统和APP生态系统来解构这种神奇. 在乔布斯健康问题为公众所担忧的今日,苹果神奇的魔力又还能持续多久?这已经是横跨商业界.科技界,甚至传媒界的重大命题. 苹果"护城河"固若金汤 孙进 即使乔布斯处于病休,但只要他还在地球上,苹果的市值仍在大步拉开与微软的差距,巩固其到手不久的全球第一科技公司的地位. 目前,微软和诺基亚的股价水平还都处于1998年水平

微信理财通高收益还能坚持多久?

经过6天公测后,微信理财通在1月22日正式上线. 除了标注的7.394%的7日年化收益,腾讯还拿出了1000万的红包吸纳用户购买,但因系统塞车一度延迟. 财付通方面坦诚因此前预计不足造成服务延迟,并表示将对所有1月22日参与理财通活动的用户补送"红包",而据财付通透露,单22日,微信理财通存入的资金规模已超过8亿元. 显赫标注在理财通首页夺人眼球的"7日年化收益7.394%"到底是如何做到的?这招吸引"小白"用户的手法到底能够维系多久?1000万

大旗网会不会倒?举起来还能撑多久?

大旗会不会倒?举起来还能撑多久? --从奇虎转型论大旗网的倒掉 文/花里花外 奇虎网新的定位是"做中国 最好的问答网站"看来周鸿祎当初的如意算盘很早就开始盘算了, 其实经常浏览奇虎或者大旗这样的聚合网站的 网友发现,去年的时候奇虎已经将二级页面更改为奇酷的域名了,而今奇酷网并不是贯彻先前奇虎的风格,做了大范围的改版,看来周鸿祎当时所标榜的社区搜索战略几乎破灭.而近日但凡使用奇虎360的网友均收到一则消息,奇虎360投资3.6亿来运作杀毒软件,且不说周鸿祎这次如何的低调,但从他的战略上

这场价格战会延续多久

京东商城.苏宁电器和国美电器等开展电商价格战,16日,价格战仍在继续,新浪微博认证资料显示为"京东商城董事局主席兼首席执行官"的刘强东称,"没有耐心陪着苏宁10元10元的降价了,今日上午11:0012:00,直接发放2000-300和3000-500的大家电优惠券,相当于每件便宜300-500元,一步到位!" 另据当代生活报消息,一般来说,搞价格战往往是先提价再降价,这一次也不例外,京东商城部分商品就是在价格战前提价的,等到价格战开战,再降价.所谓买的没有买的精.

站长的心声:我还能坚持多久?

我真的该天天守护着你,天天的去问候,你关心你?还是该放弃你了,好好的去找一份好工作,或好好去学点东西,过过平常的生活!我要吃饭,要生活,要交房租,要交网费,手机费,要还债,我还要拿钱来养着你? 凭什么.凭什么我要这么对你?是不是该放弃你了?国内的互联网只让我只能看到一片黑暗,我们算什么?只不过是一个草根站长,拿什么来和别人竞争?我们只有一台电脑,一个黑黑的房间,键盘边的一个插满烟头的烟灰缸.网页设计,网站维护,网站管理,网站宣传,对于别人可以用4个部门来做的事情,而我们呢?我们只有一个人,只有自

碎片化的时间如何利用:微博还能火多久

文章描述:微博还能火多久. 最近想起来的一个话题,纯讨论.为什么想到这个呢,是因为几个现象:@胖胡斐 的微博(已关闭),曾经关注了470+个人,有一段时间,半个小时要是不看,就至少会有4-5页更新出来,而现在,我刚去看了一下,还是那些人,平均半个小时更新数量已经不超过1屏了.很多朋友的博客,自从有了微博,就疏于更新,大批大批的闲置博客出现.同时,微博也少了的人,博客倒也没有增加.淘宝大学校长@刘博家洛 ,开了小号,目前明显小号比公众帐号活跃,因为他需要一个地方能够频繁发表自己喜欢的汽车和文化类的

无核心竞争的二维码企业还能撑多久

如今二维码确实火了,进入二维码行业的公司已经达到上百家.而二维码火,二维码公司就火吗?我们以二维码中的2个知名企业,我查查和灵动快拍,来窥探一下二维码公司的现状. 我查查宣称有5000万用户,灵动快拍也称自己有3000万用户.在中国目前仅有的3亿智能手机用户中,他们真就拥有那么多的用户吗?即使他们圈到这么多的用户,就能顺理成章地形成盈利模式吗? 首先,即使是这两个二维码领域的知名企业,其实也并未形成真正庞大的用户群.因为他们所宣传的数字并非实际用户数,而只是手机软件在android和苹果软件商店