第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕。本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作。
英特尔高级副总裁Boyd Davis
在第五届云计算大会第二天的演讲上,英特尔公司高级副总裁Boyd Davis发表了主题为《Hadoop,力助数据社会》演讲。他阐述了当今IT行业的几大趋势并分析这些趋势对数据中心未来采购行为的影响。Boyd Davis在演讲中讨论了Hadoop框架的使用模式以及其驱动大数据衍变分裂的原因。
以下为现场实录:
英特尔对大数据的理解
首先讲一下英特尔是如何理解大数据的?我们在CPU、芯片方面非常有经验,我们为个人电脑和数据中心提供处理器以及芯片。在行业里出现了一个非常值得人们关注的趋势,信息技术的发展在1960年代的时候产生了自动化的需要,由自动化引领,后来随着信息技术的发展,人们之间距离越来越近,后来我们开始关注的问题不再是拉近人们的距离,而是关注用户体验。比如说这用户体验是不是高度定制化或者个性化的?通过个性化体验的提升就产生了很多大数据。我相信接下来一轮信息产业的变革一定是由大数据带动的。所以大数据对于我们英特尔公司的策略,以及我们未来的发展都是非常重要的,这就是为什么我们和很多伙伴一起共建大数据的平台。
我们如何理解大数据?大家一提到大数据都会想TB级的数钻,或者是结构化半结构化的数据。其实我们这个行业考虑大数据的时候主要是考虑处理大数据的工具。比如说关系型数据库,但是我们发现关系型数据库有一些传统的处理根本不能适应大数据的需要。大数据不仅关乎于数据,也不关乎处理的工具,大数据它含有的商业价值比一般的数据大很多。世界上任何国家地区都认识到了数据能变现能产生很多业务模式。
从另一个角度探讨这个问题,比如说英特尔的Hadoop这方面非常先进,尤其我们在中国市场地位非常稳固。以前我们是一个芯片公司,现在我们开始关注Hadoop以及一些软件。我们发现通过Hadoop和软件的结合可以更好的利用大数据所带来的商业机会。几年以前我们跟中国合作伙伴的合作模式跟现在不一样了,这是因为创新引起的。之前跟中国合作会发现中国移动每年会产生很多数据量,而且数据量提升了30倍,对于一些运营商来讲,如果你提交的查询需要30秒的时间你是接受不了的,1秒还可以,现在大数据能够使得这些公司更接近于他们的用户并且为用户提供更好的服务。
大数据在智慧城市领域也有很大的影响。中国正在快速的发展中,智慧城市利用一些图像的控制和监控的视频来提升交通流量、提升交通的顺畅度,比如重庆就利用了监控数据的数据提升公共安全或者交通的便利性。在北京或者其它地方跟很多年前相比是有很大的不同的,如果有智慧城市项目在这儿进行的话,我相信大家上二环、三环肯定不会像现在这么沮丧了。
大数据很有作为的地方就是医疗健康领域。比如得癌症的人,我的一个同事很多年前得了肾癌,当时用的是传统的治疗癌症的药品,但是当时我的同事利用大数据破解癌症基因组的秘密。他觉得这个结果看起来更像是胰腺癌,后来将治来药物做了调整,过了几个月他就得到了一个很好的治疗,并且延长了他的寿命。如果我们能够把这个做成大众都能用得起的服务的话,那么是令人激动的,比如基因的破解、以及治疗各种疾病过程中,这是我对大数据的期待。
Hadoop不可能解决所有大数据的问题
英特尔的目标:大约几年前从谷歌一直到雅虎,Hadoop成为了一个开源性的大数据应用工具。Hadoop不可能解决所有大数据的问题,Hadoop本身也不是一个所谓的解决方案。但是我们相信,Hadoop这个框架它是一个非常基础的框架,能够使得数据的各种结构应用放在Hadoop的基础之上。在传统的产业当中,很多人如果能用到Hadoop更简化的架构的话,能够给他们工作带来很大的帮助,我们相信Hadoop有非常大的潜力,使它更容易部署,成本更低。并且也能用到更广泛的应用领域当中。
因此我们在各个领域当中对Hadoop进行改进。比方说实时的分析更灵活。当今的Hadoop是一种批处理工具,只能提供有限的价值。但是我们现在要把它打造成下一个平台的话它能有更广泛的应用和更大的能力。
现在大数据面临什么样的问题?比方说安全、实时响应、环境的负载度、实现业务价值途径等等。很多公司一开始都是考虑要存储什么样的数据以及可以从这些数据分析当中得到什么样的价值?这是大部分公司所想的问题。这些先进的公司确实是在考虑价值模式的创新。但是大部分的公司还是在考虑到底该怎么办?原因之一是因为复杂度,因为有很多工具出现需要人们学会相应的技术掌控它们。我们从数据当中得到的一些分析,如果能够实时一点的话才会起到真正的作用。我们要解决这些问题,如果采用高度集成或者垂直基站方式来做的话,可能对于很多用户来说是可以的。但是英特尔认为,开放性能够使得我们在长期内获得更快、更大的增长。对于高度集成或者私有的封闭方案可能能很快的解决问题,但是长期来说对于大数据更长期的价值实现是不利的。
如果我们有一个开放性的可操作的基础或者框架,当然是以Hadoop为基础,但是要超越这个基础才能够实现开放环境下的各种服务和应用实现,为整个行业带来利益。
Hadoop的现在和未来是不一样的
随着我们加入到Hadoop的生态系统当中,我们是完全投入到开放源当中。我们在不断的为开源社区贡献代码,我们也利用了新的技术,Hadoop从某种意义上来说是低端的软件解决方案,是针对非常复杂的问题解决。我们可以在硬件层增强平台,这个平台要具备安全性。我们还可以和开源社区共同驱动新的项目。
有很多机会扩大Hadoop使它进行相应的扩展,有很多的方法利用现有的技术使得Hadoop是一个更加有能力更广泛的应用模式和系统。比如说通过志强处理器不但能够提高计算、联网和储存能力。我们希望使得Hadoop的用户集群能够更容易部署,尤其是在存储控制方面。这样的话保证用户知道他们的数据之后他们能够介入。
我们希望Hadoop能够得到增强。看一下结果,结果是很令人震惊的,有人把Hadoop看作是一种低端的工作负载。但是如果没有一个合适的工作环境的话,有可能Hadoop就只能用于低端的工作系统,但是如果是在TB级环境下,智强处理器上面和标准Hadoop分发版的情况下处理速度能增强50%,交换率提高50%,硬盘提高40%,系统四个小时之内批处理的量能够在7分钟内处理完1TB数据。
我们希望建立一个创新的软件平台。我说过Hadoop本身不是一个解决方案,它是一个低端的平台服务,大部分的价值都是来自于上层的应用层的应用。大部分的公司他们的架构、框架,比方说在数据的布置上都会对数据进行挖掘和分析。很多时候挖掘新颖的技能或者是提一些新要求是比较复杂的,并且成本比较高。我们通过这样的Hadoop平台的支持,能够使更多的公司更好的利用他们的数据。现在能够针对文本搜索的数据来进行全文本的搜索和语义分析,运行在FDS顶层,并且能基于文本搜索进行业务价值的提升。
可以看到不但在应用层上有所发展,而且服务层上也能够有所发展。这些大数据大部分来自于服务为基础的应用中,大部分的公司都会利用Hadoop来提供一系列的服务。在博康和GDS等这样的中国公司,在中国都在考虑如何扩展他们和顾客的关系?提供一系列的基于Hadoop的服务。大部分的情况下这里有一个很强的价值导向就是可以利用我们英特尔提供的扩展的更丰富、更有能力的Hadoop的平台去做这些事情。
Hadoop现在和未来是不一样的,举个例子:(图)Map Reduce的数据分析价值:这儿列出了不同的数据,我们要去定型图像的分析处理非常难,因为这些数据本身是不对称的。比如这个人的微博帐户粉丝比其他人多,但是平行处理方式下很可能会使得这个群中某些结点会处在一种闲置的不活跃的状态。英特尔就做了一种技术,把这种组织结构的数据通过Hadoop来进行图形并行的处理,我们明年会推出这个产品。不但包括图形处理,还包括流处理都会放到Hadoop上加以利用。
拥抱社区 推进开源
英特尔在各方面推进开源,我们现在是一个全球领先的开源软件公司,我们有上万软件开发者,在中国有超过1千名软件开发者,大部分是用Linux,过去几年中我们对Linux有很大贡献。Hadoop不但是一个商业软件,也是开源的来源。开源软件是一个开放工具,但是对于英特尔来说我们开发开源软件,Hadoop不但是能够带来很大的价值和现金流,而且能够推进整个行业的平台的能力。所以说我们希望能够围绕着开源的平台增强整个生态系统的能力。
最好的解决方案是基于最好的技术,而英特尔就是一个技术公司。我们的合作方能够为市场提供相应的解决方案,因为在储存层次、网络层、技术方面都需要很好的技术最终才能为软件带来价值。
最后跟大家要说的是,你们在考虑新的服务或者新的应用的时候请加入我们一起合作。因为我们这儿有一个能够为你们的业务增长提供强大的基础。我们不但能够看到大数据,而且能看到大数据未来发展的方向。你加入我们的话能加入到一个非常强大的网络中,在中国帮助大家收集所需要的数据,解决你们面对的问题。我们有很强的硬件或者服务方面的合作伙伴,我们相信我们这个平台是帮助大家全力走向未来的一个非常强有力的推动工具和平台。谢谢!
(责任编辑:蒙遗善)