Cloudera CTO: Hadoop与Spark是合作不是取代

在开源领域,Hadoop算得上是最成功的项目之一。这个诞生于2006年的开源项目,如今几乎成了大数据的代名词,越来越多的企业正在将Hadoop应用到他们的业务中。Hadoop已成为各类企业解决海量数据的通用处理平台,被广泛运用到医疗、教育、交通等多个行业,用来对数据进行分析处理、对未来进行预测。尽管如此,作为一个开源项目,Hadoop也面临着架构复杂、技术门槛高等诸多挑战,特别是随着人工智能热的出现以及Spark等新一代大数据处理框架的崛起,企业对Hadoop出现了很多需求。在这种情况下,Hadoop会做出哪些调整?即将发布的Hadoop 3.0会有哪些改进?就显得尤为引人瞩目。就此话题,在不久前举行的Strata+Hadoop新加坡大会期间,记者专访了Hadoop的一个重要玩家Cloudera 的创始人兼CTO Amr Awadallah。

Cloudera 的创始人兼CTO Amr Awadallah

Hadoop成为海量数据处理的通用平台

在Amr Awadallah看来,过去的10年来,Hadoop的发展归为三个阶段,2008年之前Hadoop是证明了其可用性,给使用者以信心;2008年到如今,Hadoop是证明了其扩展性,逐渐占据海量数据处理市场;2008年之后,Hadoop进入了快速扩展阶段,其用户群开始从美国本土进入更多的国家扩散。

作为Hadoop生态圈中的重要一员,Cloudera的整体发展也基本保持这种节奏。他透露,如今Cloudera客户数迅速扩展到全球,已拥有1500多家客户(美国本土1000多家),合作伙伴也多达2600多个。其中IaaS的供应商就有100多家,这也说明Hadoop越来越多地和云计算绑定到了一起。

“这10年来,Hadoop接受了一个又一个案例的考验,已经被证明是可以满足企业级应用需求的,包括其稳定性、可扩展性都是足以满足严苛的企业用户需求的。”Amr Awadallah强调说,对于一个开源项目这很关键,是一笔重要的财富。

对于Hadoop而言,这10年另一个关键成绩就是围绕Hadoop已经形成了一个庞大的生态系统,一方面,在这个生态系统中有IaaS这样的云平台供应商、各类工具提供商,还有帮助最终客户完成部署并达成项目的众多合作伙伴,他们共同打造出一个繁荣的Hadoop生态。另一方面,Hadoop项目也从最初的HDFS、HBase、MapReduce等不多的项目扩展到包括Spark在内的众多开源项目的集合,展示出强大的包容能力。

“有人认为Spark会取代Hadoop,这种说法是不科学的。”Amr Awadallah特别强调这两者是相互依存的关系不是取代。他说,目前仅他所知道的同时使用Spark+Hadoop的项目就不下30个。这些项目中Hadoop很多被作为一个底层,来支撑其上运行的Spark,毕竟Spark只是一个框架,它需要HDFS来存储底层数据。

Amr Awadallah进一步解释说,需要Hadoop+ Spark的场景很多,比如,这样可以处理的数据来源可以更丰富,或者可扩展性也更强,或者这种组合可以满足多种目的的使用需求。

“根据目前的使用经验来看,基于内存计算的Spark还有一些不足,而这些不足借助Hadoop可以帮助克服。比如,Spark目前最大的应用案例是100-200个节点,而Hadoop可以达到4000个节点。另外,稳定性与Hadoop相比也有不足。”Amr Awadallah表示。

Hadoop 3.0值得期待

Hadoop是开源软件,这使得它天生地带有创新速度快等特点,与此同时,开源软件易用性不足、工具相对缺乏也如影相随。这是因为开源软件的开发人员往往愿意把精力用在那些关键功能上,而对于边缘的、非业务关键功能则关注不够。正因为如此,开源软件特别需要一些像Cloudera这样的商业公司来帮忙,包括为用户提供咨询服务、开发周边的使用工具、提供完整的Hadoop打包套件等。

实际上,即便是那些具有丰富经验的工程师有时仍会面对诸多复杂纷繁的问题而挠头,对Hadoop初学者和普通用户而言这个挑战就更大了。对此,Amr Awadallah表示,这是开源软件面临的一个普遍性问题,好在市场上还存在不少像Cloudera这样的公司可以为用户提供帮助。比如,Cloudera采用开源+闭源结合的方式,既提供有自己的Hadoop发布版,同时也提供不少商业化的工具来帮助用户更好地发挥Hadoop的价值。另一方面,它们也会联合社区来共同推动Hadoop功能的改进,使其更好用、易用。

他透露,即将发布的Hadoop 3.0在上述方面就有不少的改进,其中引入了一些重要的功能和优化,而最大改变的就是HDFS,包括HDFS 可擦除编码、多Namenode支持,也会支持Spark等。这些改进的一个直接后果是能更快,同时,也会减少存储空间。

采访中Amr Awadallah提醒说,与传统的基于数据库和数据仓库的应用相比,大数据是一种完全不同的应用类型。对于企业而言,在部署大数据系统之前,首先是要了解大数据能解决哪些问题?自己准备用大数据来解决哪些问题。否则,很容易导致为用大数据而用大数据的结局,这会影响项目的成功。其次,要积极学习新知识,同时也要结合过去掌握的数据库方面的知识。

展望未来,Amr Awadallah表示,当下Hadoop面临一个非常好的历史机遇,这就是人工智能的兴起,而很多人工智能背后都离不开Hadoop。

“人工智能最后拼的就是数据,数据量越大越最准确,最后的决策就越科学,在这种海量数据的处理平台中,Hadoop是最有竞争力的一个。”Amr Awadallah说。

另外,Amr Awadallah提到还有一些新的热门应用也会是Hadoop的机会,比如,眼下大热的区块链。一些区块链供应商选用Hadoop取代传统数据库来作为底层数据平台。在大会期间,记者遇到了来自上海万达网络金融服务有限公司的蔡栋,他是该公司总裁助理兼网络数据中心副总经理、首席架构师,上海万达网络金融服务有限公司区块链项目的直接负责人。他们所做的正好可以佐证Amr Awadallah的观点。

上海万达网络金融服务公司总裁助理兼网络数据中心副总经理、首席架构师蔡栋

大会期间,上海万达网络金融服务有限公司联合Cloudera重磅发布一站式“大数据+区块链”解决开源方案 – Project Hercules大力神项目。蔡栋介绍说,Project Hercules突破性地实现了基于各种数据中心或云环境的大数据+区块链基础架构服务,为行业用户提供集成的大数据处理、分析支持以及区块链应用的构建与管理。

“考虑到区块链项目的未来应用前景,我们认为,区块链一定就是基于大数据的。这是我们选择Cloudera Hadoop版的主要原因之一。”蔡栋表示,他对Hadoop落地到区块链的项目充满的信心和期待。

原文发布时间为:2016年12月20日 

本文作者:作者:邹大斌

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-12-05 07:53:09

Cloudera CTO: Hadoop与Spark是合作不是取代的相关文章

Hadoop迎来Spark Stream 激发大数据应用新变革

作为数据中心市场毋庸置疑的领导者,英特尔对数据中心的看法吸引了行业人士的密切关注,也在很大程度上代表了行业未来的大趋势. "信息与通讯技术正处在一个激动人心的时代,这集中体现在三个变化上,就是云计算.网络转型以及数据分析,正是这三大变化驱动了数据中心行业的发展."英特尔公司高级副总裁.数据中心事业部总经理柏安娜(DianeM. Bryant)在IDF主题演讲中如此指出.  云将无所不在 作为一项颠覆性技术,云计算已经出现了多年时间,展现出良好的成长性.其一,公有云上的交互会继续增加,例

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据

Spark修炼之道(进阶篇)——Spark入门到精通:第二节 Hadoop、Spark生成圈简介

作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 Hadoop生态圈 Spark生态圈 1. Hadoop生态圈 原文地址:http://os.51cto.com/art/201508/487936_all.htm#rd?sukey=a805c0b270074a064cd1c1c9a73c1dcc953928bfe4a56cc94d6f67793fa02b3b983df6df92dc418df5a1083411b53325 下图给出了Hadoop生态圈中的重要

WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark

如今,随着云计算.移动互联网.物联网.大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力.对于互联网企业,最有价值的数据都蕴藏在网站的日志中.从日志中,我们可以知道网站的访问量,应用的使用量.用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求. 但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性.近日,51CTO记者采访了[WOT2016互联网运维与开发者峰会]特邀讲师,又拍云C

Cloudera将Hadoop打造万能数据解决方案

Cloudera将Hadoop作为企业数据枢纽的想法非常大胆,但是现实却大相径庭.Hadoop距离让其他大数据解决方案黯然失色还有很长的一段路要走. 当你有了一把足够大的锤子时,所有的东西看起来都是钉子.这是Hadoop 2.0所面临的众多潜在问题之一.目前,让开发者和终端用户最关注的是Hadoop 2.0大规模地修改了大数据处理的框架.Cloudera计划将Hadoop 2.0打造成一把能够应对所有不同钉子的万能锤子. 毫无疑问,Hadoop 2.0与之前的产品相比性能有了很大的提升.之前对于

Cloudera与NetApp周一宣布建立合作伙伴关系

Cloudera与NetApp周一宣布建立合作伙伴关系,根据双方协议约定,NetApp将代销Cloudera的Apache Hadoop经销与企业管理软件,Cloudera将支持NetApp即将在12月发行的存储基准架构Open Solution for Hadoop.这项合作显然是NetApp针对EMC与MapR Technologies在今年5月份达成合作的回应. 作为那项交易的一部分,EMC进入了Hadoop企业支持业务领域,与Cloudera展开直接竞争,同时它还将MapR的软件整合到G

使用Hadoop还是Spark到底怎么决断?

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.或许我们可以这样说,Hadoop是大数据的启蒙,借助Hadoop让企业步入了大数据时代.而最近几年,Spark的风头似乎超越了Hadoop.而且网上有一种声音就是Spark将会取代Hadoop成为大数据的统治者,事实上是这样么?且听笔者娓娓道来. 其实,Hadoop与Spark不存在冲突,因为Spark是运行于Hadoop顶层的内存处理方案,也就是说目前部署Spark的企业,其实都在现有的Hadoop集群中运行Spa

相比Hadoop,如何看待Spark技术?

之前看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性.但是最近的风评已经变 化,尤其是14年10月他们完成了Peta sort的实验,这标志着Spark越来越接近替代Hadoop MapReduce了. Sort和Shuffle是MapReduce上最核心的操作之一,比如上千个Mapper之后,按照Key将数据集分发到对应的Reducer上,要走一个复杂的过程,要平衡各种因素.Spark能处理Peta sort的话,本质上已经没有什么

《Spark与Hadoop大数据分析》一一2.4 安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群 在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本.在 Cloudera.Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的.在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0.但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步.对于后续章节的实践练习,我们会使用来自 Clou