不仅是开源,也是标准!访Cloudera Doug Cutting和凌琦

借英特尔& Cloudera数据分析媒体沟通会的机会,笔者对Cloudera这家在中国成立仅有18个月的公司进行了采访,Cloudera公司首席架构师,Hadoop之父Doug Cutting先生和Cloudera 大中华区总经理,公司副总裁凌琦先生接受了笔者的采访。

一、70%以上市场采用率

谈到这18个月以来Cloudera在中国的发展情况,凌琦先生表示,Cloudera中国公司于 2014年12月10日在上海成立,成立后的第三天就到北京参与了国内大数据大会,Cloudera公司首席架构师Doug Cutting在会上做了主题演讲,从那时开始到今天已经走过了18个月。在这18个月的时间里, Cloudera在中国目取得了非常好的进展,目前在北京、上海、广州已经建立了服务机构,另外由于业务发展的非常快,因此在北京的业务还将扩展。从机构的性质来说,除了和英特尔之间研发和项目合作之外, Cloudera在商业方面形成了比较完整的售前、营销、和专业服务体系,并且成立了负责整个亚太区的客户支持中心,客户支持中心已经在上海建立。

Cloudera公司首席架构师,Hadoop之父Doug Cutting先生

他表示,到目前为止,Cloudera的业务已经涵盖电信、金融、制造行业,另外基础设施相关、零售相关的业务也已经全面开展。我们非常高兴在国内主要的大企业都开始广泛采用基于Apache Hadoop的Cloudera商业发行版,并且免费版本的发行和采用率上在国内我们至少占有70%以上的市场采用率。当然,商业版本的用户主要是大型企业,在电信、金融、制造以及零售方面。

除了服务项目之外,Cloudera还与各大高校联手推出了培训的业务。谈到这块业务时,凌琦先生表示,Cloudera的大数据人才培训业务目前已经与5家主要的培训合作伙伴在国内签约,开始在各个地方做大规模的人才培训。Cloudera培训的13门课程,全部在中国开放。未来,Cloudera还将与清华大学等各大院校进行合作,进行人才培养。

二、以极低的价格对所有文件进行加密与解密

谈到与英特尔的合作,Doug Cutting先生表示,Cloudera和英特尔已经合作两年了,我们与英特尔的合作基于一个目的,那就是让大家的软件可以在英特尔的硬件上跑的更好。另外,Cloudera和英特尔也在共同寻求合作伙伴,以保证越来越多的大数据应用在数据中心部署,更好地发挥英特尔硬件的一些功能。

他表示,两年以来双方的合作非常成功,在许多领域双方的工程师共同合作,保证了Cloudera的软件能够非常好的运行在英特尔的硬件平台上。在一些领域,我们进行了进一步的优化,以便能够完全和英特尔的技术进行结合,例如现在可以以非常低的价格进行解密,这样可以让所有的文件都有加密,并且不会在解密和加密过程中影响到使用和运营效率,这样即保证了安全,又不影响整体的运行效率,是非常安全可靠的解决方案。另外,在编码方面通过Cloudera和英特尔的合作可以获得更多的数据集合性,让我们在英特尔硬件所有的功能进一步通过上面跑的软件做得更好。

此外,在堆栈的基础上,Impala到HDFS都是我们合作的领域,要保证他们在英特尔的硬件上实现最好的运行,这就要求大家使用同一个软件。当然,无论对Cloudera的客户或者英特尔的客户而言,他们都是非常满意的。同时,我们也在Spark和Impala上进行合作。

Cloudera 大中华区总经理,公司副总裁凌琦先生

凌琦先生则表示,我在英特尔工作了20年,英特尔本身在高校的合作其实是非常多、非常广泛的,我曾经经历过的包括在软件学院的合作、半导体学院的合作、863计划的合作等。Cloudera以创业公司的身份进入中国,在工作中我借鉴了很多以前在英特尔工作的经验,这在我们与英特尔的合作特别是在一些企业研究机构当中的合作起到了很好的作用。Cloudera和英特尔有很多共同的研究项目,比如与清华的合作,英特尔与清华有长期的合作,Cloudera作为一个新公司这一次在清华也有很广泛的合作。

三、不管名字是不是Hadoop,只看技术的发展

对于Hadoop技术发展,Doug Cutting表达了自己的观点,他表示,长期的Hadoop的成就是改变企业使用开源堆栈的行为,相信越来越多的Hadoop技术模块会为更新的技术所有替代,现在我们看到的是一个快速发展中的生态系统。Cloudera致力于推动支持整个生态系统,不管它的名字是不是Hadoop,我们会看这个技术的发展。

关于Hadoop的未来,Doug Cutting表示,其实我们发现了很多新技术,比如说Spark已经成为一个非常好的技术,给人们带来了很多价值。最近,我还看到了Kudu,这也是我们觉得很兴奋的技术,它也是把关系型模型实现快速的更新,这是一种分布式的技术,也是开源堆栈的一部分。其实开源领域有很多新的发展,但是到底大数据下一步是什么,主流的新技术是什么,由于这个系统还在演进中,现在很多人在做试验,在做新的开源项目,有些大家觉得有用,那么它们就会变成标准化的平台,像Cloudera和英特尔这样的厂商就可以用它。Spark不是我们这两家公司发明的,而是在伯克利大学诞生的,当然很多人做出更新更好的平台我们都会拥抱和接受。真正技术的未来就是这种演进,由整个用户社区启发的技术。

四、不仅仅是开源,也是标准

谈到国内Hadoop生态环境和生态成长,凌琦先生表示,Hadoop这个名字和这个项目是Apache软件基金会的项目,即使是Cloudera也叫Cloudera Distribution of Apache Hadoop,是Cloudera Apache Hadoop的发行版。除了Cloudera之外,市场上有很多厂商也在发行一个版本。作为开源的产品,大家对它的源代码都可以拿到,发行并非非常难。但关键在于两个,第一,你在Apache软件项目里面有多少贡献?你对代码有多少贡献?有多少创新,这是非常关键的。原创和拿过来发行还是有很大区别的。这个区别在于第一你的贡献率,第二你对未来前瞻性技术的看法。任何对于现在版本的更新或者补丁,未来能不能进入主流是另一个问题。

第二,关于开源和闭源以及开源和标准问题,Cloudera是非常在意而且对开源有非常强的承诺,这就是为什么现在看到市场上绝大多数开源版本,免费下载的版本,保守说70%甚至更多的比例是CDH的版本。在过去18个月工作中,我们访问了很多客户,我们在访问新客户时通常会问你是否用过Hadoop,如果用过会问用过什么版本。通常两个答案,要么是CDH版本,要么就是不知道什么版本。除了高校和学术单位有Apache原生版本,绝大多数都是CDH版本,也就是Cloudera的免费下载版本。这代表了市场上对我们的认可。你可以发行你的版本,但是是否有在上面有创新是非常重要的。

还有一些厂商为了区隔已有的开源版本,它改了一些东西,之后不再开源。这个是完全违反了开源的精神。Cloudera希望开源是大家都能够贡献你的聪明才智,把新的东西能够在整个开源社区中贡献出来。如果拿了开源社区的东西,做了改进又不开源。这就违背了开源的精神,未来是没有办法进入到主流升级的,会对不开源的用户带来很大影响,对于以后的改进、以后的补丁都会造成不兼容。所以我们建议开源,同时参与到开源社区的工作当中。

最后,涉及到开源和标准的问题,Cloudera所有主要模块都是开源的,同时也保证这些工具会有超过一个以上的厂商去提供支持和开发。有些产品的开源说只有他一家能做,即使他开源了,也没有第二家,一旦客户用了它就绑定了。但是,Cloudera保证现在做的每个模块都是得到了业界认可,同时有很多的厂商帮助一起开发,帮助一起支持的。所以能够成为一个标准,标准就意味着多家厂商同时对这个模块进行支持,所以不仅仅是开源,也是标准。

本文作者:ZC

来源:51CTO

时间: 2024-10-25 09:56:26

不仅是开源,也是标准!访Cloudera Doug Cutting和凌琦的相关文章

Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法

搭建一个开源平台,组织就能利用云供应商套利来降低成本 由于Doug Cutting和Apache软件基金会有多年的合作关系,于是经常被问到"什么是开源技术的未来?".Doug的回应一般要么是"我不知道",要么是"有无穷的可能性". 在过去的一年中,我们已经看到开源技术强势的发展成了企业的技术主流.谁会想到十年前Doug在Hadoop所做的工作会影响到那么多的行业,从制造到电信,再到金融等等.它们都掌握了开源生态系统的力量,不仅改善了客户的体验,变

对话Hadoop之父Doug Cutting|大数据和开源的未来

前言 对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点.不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国大数据产业发展的澎湃动力. 在Hadoop生态领域,Cloudera是规模最大.知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一.带着对中国大数据市场的满满诚意,Cloudera创始人.董事长兼首席战略官Mike Olson以及Hadoop之父.Cloudera

【BDTC讲师】Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路

Doug Cutting,凭借自己对工作的热情和脚踏实地的态度,开创了Lucene和Nutch两个成功的开源搜索引擎项目,同时也是当下人气大数据计算框架Hadoop的创立者.Doug于1985年毕业于美国斯坦福大学,首个在Xerox的实习工作奠定了他日后研究搜索引擎项目以及成功的基础.1997年底,Doug通过Lucene这个首个提供了全文文本搜索的开源函数库实现了理论到实践的巨大突破.在此基础上,Doug相继实现了Nutch .Hadoop.为了自身梦想的实现,Doug先后就职于Archite

九头蛇与大象之争,Hydra或将取代Hadoop

[编者按]Hadoop被认为是最好的大数据分析平台,本身就具有较好的性能,还有活跃的开源社区支持,Hadoop创始人Doug Cutting也曾预言未来Hadoop不仅仅用于大数据处理,还将成为数据平台的系统内核,将用于在线事务处理--Hadoop的发展前景似乎一片光明,却没有注意到竞争者的出现,Hydra在某些方面甚至具有比Hadoop更加优越的性能,宣布开源以后,Hydra得到了越来越多的支持,未来Hydra极有可能成为Hadoop强劲的竞争对手,Datanami的主编Alex Woodie

Cloudera Impala:基于Hadoop的实时查询开源项目

正在纽约进行的大数据技术会议Strata Conference + Hadoop World传来消息,Cloudera发布了实时查询开源项目Impala 1.0 beta版,称比原来基于MapReduce的Hive SQL查询速度提升3-90倍(详情可以参考此文中的"How much faster are Impala queries than Hive ones, really?"部分),而且更加灵活易用.Impala是高角羚的意思,这种羚羊主要分布在东非. 同时,这个项目也将以Cl

开源文化不再仅仅局限于开发者

新一项调查显示,曾经作为开发者癖好的开源文化如今正在蔓延 十年前,开源是一项开发者运动,今天已远非如此. Linux 基金会的一项新调查显示,"企业管理者认识到,企业不仅迫切需要开源软件,而且也率先参与开源软件的研发."这一点反过来也巩固了开源软件作为企业关键驱动力的地位,而不仅仅是一种高效的代码编写方式. 企业会限制开源软件的生存空间吗? 作为昔日自主创新的模仿者,开源软件早在若干年前就确立了行业创新的计划.计算机行业最主流的趋势--从云计算到大数据,再到移动互联网--都是由开源软件

15个开源的顶级人工智能工具

人工智能artificial intelligence,AI是科技研究中最热门的方向之一.像 IBM.谷歌.微软.Facebook 和亚马逊等公司都在研发上投入大量的资金.或者收购那些在机器学习.神经网络.自然语言和图像处理等领域取得了进展的初创公司.考虑到人们对此感兴趣的程度,我们将不会惊讶于斯坦福的专家在人工智能报告中得出的结论:"越来越强大的人工智能应用,可能会对我们的社会和经济产生深远的积极影响,这将出现在从现在到 2030 年的时间段里." 在最近的一篇文章中,我们概述了 4

清华大学数据科学研究院与Cloudera联手发布大数据人才教育项目

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利.在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支撑,有效推动了开源社区的用户和贡献者,带动了技术进步与商业发展.而在全球范围内,大数据行业正在面临数据专业人才短缺的困境. 2016年8月5日,清华大学数据科学研究院("清华数科院")宣布与Cloudera合作. Hadoop之父.Cloudera首席架构师Doug Cutting与清华大学数据科学

开源平台战争和Cloudstack的机会

4月5日,Citrix(思杰公司)宣布所属CloudStack开源软件将加入Apache软件基金会(Apache Found),成为行业中第一个加入该基金会的云基础设施解决方案,无疑这是一个明智之举,它为CloudStack开源平台以及合作伙伴的选择,带了更多更具有想象空间的可能性.Coudave的编辑和分析师Krishnan Subramanian在其评论文章中指出:"加入Apache软件基金会,能够帮助CloudStack吸引更多合作伙伴来加入其可赢利开源项目,鼓励CloudStack开源软