Cloudera CTO:取代MapReduce 未来会加大Spark等框架投入

MapReduce的高延迟已经成为Hadoop发展的瓶颈,为当前的MapReduce寻找性能更高的替代品已成为Hadoop社区的一个共识。

MapReduce

有关MapReduce框架,最早要追溯到Google,Google将这个框架与灵活、可扩展性存储结合到一起,用以解决各类数据处理和分析任务。后来Doug Cutting和Mike Cafarella在2005年联合创立了Apache Hadoop时,采用的就是这个架构。

类似的项目,比如Apache Pig和Apache Hive,它们将专门的查询转化成可以运行在多功能MapReduce框架上的任务,同时也继承了MapReduce的可扩展性、容错能力、良好的吞吐能力还有糟糕的延迟,特别是Hive,延迟使其无力应付交互式应用。

关于MapReduce的抱怨使人们对企业数据中心和Hadoop项目的热情渐渐减少,MapReduce延迟太高,批处理模式响应也难以应对大量需要处理分析数据的应用。

Hadoop生态圈需要的是一个比MapReduce更加强大、更加灵活、更具实时性的系统。

Spark

如今MapReduce的主要替代者是Apache Spark。和MapReduce一样,它也是一个多功能引擎,但是Spark设计之初就考虑到运行更多的负载,而且速度更快。

最初的MapReduce通过简单的方式执行任务,但是本身结构严格:处理或者转化(map);同步(shuffle);以及在集群中将所有结点的结果整合到一起(reduce)。你必须将问题变成一系列MapReduce任务,然后按照顺序执行这些任务,延迟很高。在前一个任务执行完成之前,任何一个任务都无法开始,运行复杂、多阶段的应用程序很让人头疼。

一种替代方案是让开发者构建有关任务的复杂、多步有向非循环图(DAG),一次执行所有这些图,而不需要一个一个按照顺序来。这个方案避免了MapReduce中麻烦的同步问题,也使得应用程序的构建更加简单。对于DAG引擎的研究,微软在早些时候已经开始了,比如:Dryad,Dryad一直在微软内部使用,针对Bing搜索和其他托管服务。

在Spark中既包含了上述一些思想,也有一些重要的创新,比如:Spark支持跨DAG的内存数据分享,使不同任务可以以非常高的速度处理相同数据。Spark甚至支持循环数据流,这使得它能很好地处理迭代图算法(社交网络分析中常用)、机器学习和流处理,这是通过MapReduce或者其他DAG引擎是很难做到的。

Spark包含了流处理、快速故障还原、语言集成API、优化调度和传输数据等许多高级的功能。内存使用是Spark最引人注目的地方,MapReduce需要经常处理存储在磁盘上的数据,相比之下,Spark可以利用分散在集群中所有节点的大量RAM,它能够智能利用磁盘,解决溢出数据和持久性问题,这使Spark在应对负载时有了巨大的性能优势。

为什么不改进MapReduce,而要取代它?

在过去两年,Hadoop社区对MapReduce做了很多改进,但这些改进大多只是停留在了代码层,软件开发者把这称为原有代码基础上的“技术债务”,这些负债导致在原有基础上的改进只能解决一时的问题,从这个意义上讲,MapReduce实在是已经负债累累。

创建全新的代码库(无技术负债),针对当前和未来可预见的负载进行设计,这个过程相对还比较简单、风险较小。需要考虑的问题是:我们是不是真的有必要创建一个全新的项目?

作为MapReduce的替代品,Spark已经比较发展得比较成熟,拥有来自25个国家超过一百个贡献者,社区非常活跃,实际上已经没有必要去创建一个全新项目。

从长远来看,我们期望减少在MapReduce上的投入,相应增加在新框架上的投入,比如:Impala和Spark,理所当然,运行在该平台上的负载将逐渐转移到新的框架上。Google已经开始将负载从MapReduce转移到Pregel和Dremel上,而FaceBook则将负载转移到Presto上。

原文发布时间为:2014年05月06日

本文作者:Mike Olson

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-19 09:00:10

Cloudera CTO:取代MapReduce 未来会加大Spark等框架投入的相关文章

Spark取代MapReduce成为Apache顶级项目

Apache Spark是一种内存数据处理框架,目前已经升级成为Apche的顶级项目,这有助于提高Spark的稳定性,在下一代大数据应用中取代MapReduce的地位. Spark最近势头很猛,大有取代MapReduce的趋势.本周二Apache软件基金会宣布Spark升级成为顶级项目. 由于性能和速度由于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区.这意味着Spark更加符合下一代低延迟.实时处理.迭代计算的大数据应用的要求. Spark的创建者来自加州

大数据之市场未来2年趋势和IT投入重点

文章讲的是大数据之市场未来2年趋势和IT投入重点,为了准确描述中国大数据市场和技术发展趋势,解析大数据发展的各阶段对IT技术的需求,2013年6月,中桥国际调研咨询(以下简称中桥)对中国480家最终用户的IT管理者和专业人员,就大数据市场和技术发展趋势展开了调查.之后中桥首席分析师王丛,将结合其在欧美数据中心领域十几年的市场调研积累,对中国大数据市场趋势的调查数据进行解析,以诠释中国大数据市场和技术趋势.同时,会通过在线讲座(www.webinars-china.com ),和中国读者解读中国大

最短路径条数-spark graphx框架下怎样求两点间最短路径的条数

问题描述 spark graphx框架下怎样求两点间最短路径的条数 我使用spark的graphx图计算框架,现在要求一个图中所有节点对的最短路径条数, graphx下的pregel迭代貌似使用的是类迪杰斯特拉算法,要求最短路径长度很容易, 但是要求条数,我实在是想不出来怎么求,希望各位大神解答,最好能有源码,实在 没有,有思路也可以,万分感谢!!!

Cloudera CTO: Hadoop与Spark是合作不是取代

在开源领域,Hadoop算得上是最成功的项目之一.这个诞生于2006年的开源项目,如今几乎成了大数据的代名词,越来越多的企业正在将Hadoop应用到他们的业务中.Hadoop已成为各类企业解决海量数据的通用处理平台,被广泛运用到医疗.教育.交通等多个行业,用来对数据进行分析处理.对未来进行预测.尽管如此,作为一个开源项目,Hadoop也面临着架构复杂.技术门槛高等诸多挑战,特别是随着人工智能热的出现以及Spark等新一代大数据处理框架的崛起,企业对Hadoop出现了很多需求.在这种情况下,Had

去年外贸进出口总值约3万亿未来将加大进口

中广网北京1月10日消息 (记者 邢斯嘉) 据中国之声<新闻晚高峰>报道,今天(10日)上午,海关总署公布2010年全年外贸情况,进出口总值29727.6亿美元,比上年同期增长34.7%. 11月,我国外贸进出口同比下降9% ,呈现8年来首次负增长的情况下,海关总署今天公布的数据超过市场此前的预期, 12月贸易顺差约为130.8亿美元,低于市场预估的200亿美元,并创2010年5月以来新低.海关总署综合统计司司长郑跃声认为,顺差缩窄和外商所占加工贸易的比重共同显示了2010年我国对外贸易发展更

为何中国互联网巨头突然加大在云端市场的投入?创业公司还有哪些机会

在阿里巴巴最新发布的财报中,阿里云的收入已经达到了30亿人民币,同比增速138%,成为阿里巴巴四大新兴主营业务之一. 与此同时,马化腾开始亲自出来为腾讯云站台,表示腾讯云其实非常强大,但过去只是内部使用,现在终于要彻底开放了,今年腾讯云的增速也超过了100%. 而麻烦缠身的百度,在云端市场居然也不甘落后,李彦宏甚至特地发表演讲声称百度作为一家搜索公司,其实本质就是一家做云的公司. 为何国内巨头突然齐齐加大了在云端市场的投入? 很显然,云服务对c端的用户来说,并不是什么使用互联网的"入口"

去哪儿高管解读财报:加大移动端研发投入

腾讯科技 木语 11月20日报道去哪儿网周二发布了截至2013年9月30日的第三季度财报.财报显示,去哪儿网第三季度总营收为人民币2.411亿元(约合3940万美元), 同比增长57.5%:归属去哪儿网股东的净亏损为人民币4880万元(约合800万美元),不及上年同期的净亏损人民币840万元.财报发布后,去哪儿CEO庄辰超().CFO孙含晖等高管出席了随后举行的分析师财报电话会议,解读财报要点并回答分析师提问.庄辰超提到,目前,去哪儿的商业模式,可以说是在线旅游代理.在线旅游媒体以及 旅游搜索引

运营商在RAN领域将加大SDN和NFV投入

移动互联网的全面兴起,进一步拉动了全球无线网络(主要指运营商层面的无线接入网RAN)投入的提升,包括建设部署LTE和HetNet网络的基础设施等,以满足日益增长的全球移动宽带接入需求. 不过随着各种互联网应用的兴起,运营商开始面临被"管道化"的风险,因此控制成本已经成为当前全球运营商的一大诉求,而软件功能虚拟化无疑是最佳选择,其让运营商摆脱了专属硬件的束缚,同时结合软件定义网络SDN,还能在空间.部署实施.以及后期运维等方面进一步降低成本. 运营商正在积极拥抱SDN和NFV 当然,更为

韩国网站受黑客攻击政府应加大对网站维护投入

本报记者 钱炜 从本月7日开始,包括总统府.外交部在内的韩国多家主要网站多次受到黑客攻击.这不禁使人要问:到底能不能找到作案元凶?我国的政府网络安全吗? 据报道,此次黑客攻击的方式为分布式拒绝服务攻击(DDoS).共有12000台韩国境内的计算机和8000台韩国境外的计算机被病毒感染,成为"肉鸡",被用于此次的黑客攻击. "博客中国"创始人.资深互联网专家方兴东表示,要想防范此类黑客攻击本身就很难,更不要说事后查到元凶了.早在几年前,"博客中国"