【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
Chief Architect of Cloudera,Chairman of Apache Software Foundation Doug Cutting作为第一位演讲嘉宾,发表了“The Data Revolution”的演讲。
Chief Architect of Cloudera,Chairman of Apache Software Foundation Doug Cutting
以下为演讲实录:
Doug Cutting:我非常荣幸能够来到这里,今天很高兴能够在这里跟大家交流。现在我们处在一个数据的革命时代,我们有一个新的建立起数据体系的方式,而且更加有效率,积极性更好,更有效,这是比我们之前方式更好的一种新的革命。而且这一个新的方式正在促进经济的发展,现在中国已经为这一创新做好了准备,而且中国也能从这场创新当中获益,所以我想首先向大家介绍一下在我们一场新革命当中到底有怎么样的前提或者是假设。在硬件方面,过去50年当中有了创新性的革新和发展,在过去50年间有了指数般的增长,无论是处理器的速度,还是处理器的性价比,内存的规模内存的容量,以及处理的能力都获得了巨大的发展。这是在其他技术领域都不曾见到的发展,我们把整个趋势变快了,而且我们增长速度是上百万级的。
我们整个的生产效率在其他领域也有所提高,比如说农业领域或者其他的行业,但是没有任何行业经历了像我们计算机行业近百万级的增长,我们这个阶段需要看未来指向何方,尤其是计算有了如此大的变化,未来将会带领我们走向何处?所以我们做这样一个假设我们硬件的内存,包括我们处理能力将会比未来有更大的进步。而且我们在此之前虽然说也目睹了硬件的发展但是没有像当前这样有如此大量的进展,所以这对我们来说其实是非常重要的,因为我们需要思考到底是什么促使了或者驱动了硬件的发展。那就是因为我们几乎在生活当中的方方面面各个行业都使用了计算机。我们现在不仅是在会计、科学使用了计算机,而且我们在农业、在交通、在医疗、在政府部门都大量的使用了计算能力。在各个领域我们部署了硬件,这些硬件可以有能力产生并且存储数据。在医院、在公园、在停车场,在各个地方他们都可以帮助我们产生数据,如果我们把这些数据收集起来,我们可以更好的了解我们的行为,我们了解我们从事的业务我们的任务,这可以进一步改善我们生活改善我们工作,让我们生活更高有了新的发现和发明,所以这些数据非常有价值的。我们行业以及行业当中的公司他们有效的利用数据,他们如果实现这一点的话就可以在行业当中获得领先的地位,我们可以有效的去利用数据才能实现这一点,但是如果你没有办法去有效的利用数据,你就会在竞争中落败,因为竞争对手正在有效的使用数据。我们设备正在产生数据,我们通过利用收集这些数据就可以更好的在未来一个世纪当中发现潜力,我们性价比越来越高,数据不断的增长,我们同时可以通过软件把这两个融合起来,我们需要采取一些方式创造这些软件让我们更好的发挥实力。
在过去10到20当中,我们发现软件所开发的方式已经发生了变化,在此之前我们的软件一般是公司所持有的,它以颁发许可方式给所有人的,这些软件基本上由企业所控制的,就相当于让一部分人控制了我们在开发软件或者在使用软件的过程,而在这种情况之下你会感觉到不舒适,但是在开源的基础之上我们会摆脱这种被控制的感觉。我们可以自己去进行软件的分享和开发,因为我们知道软件是我们每个人所共享的。我们面临一个选择,开源还是商业所有,人们无疑选择了开源。
就我个人经历来说,我在一个项目中有非常切身的感受,Lucene是我90年代写的一个搜索的技术,在2000年的时候采用了开源方式开放给大家,当时可以说2000年最好的搜索技术了。自2000年以来,逐渐的变成了在全球最通用的引擎技术,而且也成了最强有力的搜索技术,并不是说在技术上它有先发优势,而是因为它是开源的,开源对于Revolution起了至关重要的作用。
现在我们到了一个阶段,如果我们希望一个技术成为行业所使用的基础技术,最基本的要求它要成为开源的。我们知道我们推出一项新技术的时候,人们越来越倾向的使用开源的方式了,这个也是市场的需求,所以我们把开源作为我们软件开发的一项重要的标准。现在我们新的革命就有三大要素,也是三大支柱包括:硬件、软件、还有刚才提到我们开发软件新的方式及开源。在2003年的时候我正在致力于基于Revolution开源的技术引擎,当时我们要把上百万份的网页数据进行整合进行数据的收集,在此之上开发一个搜索的引擎。所以我们知道我们必须在很多机械上面完成这些任务进行分发,所以我们利用现在越来越便宜的硬件,非常容易的实现可扩展性,但是令人遗撼得是,我们需要各种各样的菜单才能在五台机器上面同时运行,五台机器同时运行的话我们需要一个人全职做这个工作,如果20台机器的话我们需要5个人完成这个工作。怎么完成这个任务?我们找到了一个完美解决方案,让我们手工可操作的任务实现自动化。当硬盘的内存出现错误的时候数据不会丢失,而且也不会导致系统崩溃,而是系统会继续的运行下去,我们可以在上千台的服务器上面帮助我们让这个系统持续的运行下去。我们所用的第二个系统,我们做了一项竞赛,它也具有同样的性能,就是它可以实现自动化和可靠性。当出现任何失误的时候,这个系统就不会崩溃,而是可以持续的运行下去,而且它可以帮助我们更好的实现可靠性的管理。
所以可以看到这其实是一种新的方式,它也让我们处理和存储的方式发生了革命。因为现在商业软件的性价比更高了,价格更低廉了,它可以帮助我们存储更多的数据,处理更多的数据,我们可以把数据进行转换,而且可以更方便的方式来进行识别,而我们在这个过程当中可以提高灵活性。此外我们还有一个通用的处理过程,我们可以采用多种多样的方法。在2006年我们把刚才提到引擎的技术进行了优化,形成了我们今天所谓的Hadoop,谷歌他们有内部开发的技术,我们提供的开源技术,得到更多人的使用,所以2006年的时候我们有40到50个节点在进行运行。后来在雅虎的帮助之下,我们开发了一个可拓展性的系统,它可以在上千台上万台机器上运行,而且几周时间都可以非常顺利的运行,其实已经形成了新的计算的方式面向世界。
当时主要是支持批次计算和处理,通过这个项目缺陷被逐渐的解决了,而且它可以帮助我们更好更加有效在各个行业使用,它灵活性非常强而且活力也很高。这是因为我们在开发者社区当中有各种各样的竞赛有各种各样的贡献,我们看到有不同的系统,这些系统也在不断的发展起来。首先就是Ecosystem,它可以很快很好的进行批次处理,而现在这个平台其实也是我们这个平台的核心,而且可以实现非常好的通用功能。后来我们又逐渐的来针对批次处理,实现更好的其他相关功能。基于这些集群的处理功能,所有这些性能都是可以很好的兼容它们可以分享数据,它们可以在不同的搜索引擎运行大批数据,而且他们可负责性也非常强。它其实帮助我们形成了新的处理方式。我们之前花了大量的时间去设计系统获得数据,把数据输入到系统当中上传等等,但是现在却完全不同了,我们可以完全在一个系统之上去运行不同的应用,而且可以实现不同的工作量的处理,我们可以在一个系统上面去运行不同的应用而且可以实现很大的灵活性和灵敏。而我们这个平台当中也开始支持越来越多的处理方式,比如说内存处理、流处理,当然就是用Spark支持我们两大功能流处理和内存处理,而我们随着技术不断的推进,这项技术可以帮助我们把传统单一数据形式开始转变为企业数据枢纽已经成为一个新的数据应用平台。
当我第一次读到谷歌的报告的时候,我觉得会有越来越多人对这样平台感兴趣,我们发现越来越多人选择了Hadoop,把Hadoop做一个体系,无论是微软还是甲骨文等等这些企业,我们看到Hadoop的生态系统已经成为了大家所默认的一种方式,是它们作为数据应用的一种默认平台和系统。我想这个趋势应该会继续下去而且会延续非常长的时间,因为它是非常有活力强有力的系统。
我们有20多个开源项目,这些项目都是独立的,它不是有某一方所主要控制的,而这些项目都是可以不断的改善。关键是这些项目可以帮助我们把整个体系做得更好,我们有更好的文件系统、调用器等等,我们看到这方面我们Spark逐渐取代一些旧的机构,这是我们机构当中的新变化,可以让我们系统至少可以更好的实现需求,满足人们的需要。我想大家也可以参与进来,像谷歌在几年之前又发布了一项新的报告,也讲到了数据交易,在此之前人们觉得我们很难有效实现大规模数据的转换和交易,但是谷歌的这份报告当中提我们其实可以实现这一点。我们可以一方面实现数据的大量交换和分享,但是也不会丢失数据的核心,我们可以在这样的平台上实现这一点,我想这其实是我们所不可避免的一个趋势,因为我们这种交易数据是需要有系统支持的,而现在企业数据枢纽像智能手机一样,它是我们生活当中不断使用的系统和工具,我想这个领域我们可以想想智能手机,这是一个电话同时也是发短信的工具,它也是摄象头,而且还有各种各样的功能,也就是多合一的功能,像摄象头我们有更好的相机,但是我们大部分手机会选择智能手机,因为我们觉得拿着智能手机非常方便各种功能都兼和起来,而且可以跟其他系统进行联合和连接,所以对我们企业数据枢纽来说也是如此,它可以把各种工具融合,它可以帮助我们更加容易的完成工作。所以我相信我们在深处数据革命当中,我们有了更新更加有效的方式管理数据,它可以帮助我们促进经济的发展,在未来十年都会如此。而我认为中国现在已经做好了准备去全新拥抱这场新革命。这场革命才刚刚开始,但我想这其实已经是一个数据的时代,企业数据枢纽会助力成为中国,成为一个数据驱动型的经济体和国家,非常感谢各位谢谢!
更多精彩内容,请关注直播专题2014中国大数据技术大会(BDTC) ,新浪微博@CSDN云计算,订阅CSDN大数据微信号。