第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕。本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作。
LSI总裁兼CEO Abhi Talwalkar
在第五届云计算大会第二天的演讲上,LSI总裁兼CEO Abhi Talwalkar发表了名为《大数据洪流引爆数据中心革命》的演讲。他认为大数据正在多方面地冲击和改变我们的世界。因此,我们需要在工具、产业生态系统及基础架构等方面进行创新,从而更好地管理、分析大数据,并从大数据中获取价值。
以下为现场实录:
Abhi Talwalkar:各位早上好!非常高兴能参加这次的云计算大会。我要感谢云计算委员会邀请我来跟大家分享云计算和大数据的情况。
我们公司是云计算和网络解决方案,规模有几十亿美元。我们处理各种各样的数据,有像移动设备、移动网络方面的计算,还有缓存方面的技术。非常高兴这个大会是专门讲大数据的,因为大数据将会改变我们的生活。之前听到了很多关于大数据的例子,我会给大家提供更多的例子来说明。
首先说说数据流的变化和计算结构的变化,还有硅谷现在在大数据方面的变化,将给我们的生活带来什么样的影响。
大数据肯定会推动现在的发展,比方说硬件、软件和服务方面的发展。还有就是我们日常生活也会受到大数据的影响。现在是数据泛滥的时代,我们之前也用这个定义来说明我们现在看到的社会中的变化。现在社会中有非常多的数据生成,非常多的数据流。还有很多的数据融合,比如全球的移动网。
去年大概销售了20亿台手机,大约有30%是智能手机。这些智能手机需要非常精密复杂的移动服务,自然会产生非常多的数据。只有15%-25%的互联网数据流是移动性的数据。在中国有更多的人使用智能手机联网,而不是用电脑联网,所以说移动设备是很大的趋势。
还有一个就是视频,我们现在用的更多了,而且大家常用视频进行分享和交流。在美国像YouTube,每一分钟大概会上传100个视频;中国的优酷也有大量的数据流量。还有社交平台,像阿里巴巴、淘宝、天猫这样的平台,每天能够完成2.5亿个交易,在去年处理了接近1万亿人民币的交易额,比亚马逊和eBay加起来都要高。现在微博和微信的使用非常广泛,已经成为网络社交的主流,Facebook的注册用户已经达到11亿,网络上的数据流量非常巨大。
现在的联网设备已经达到170亿部,到2020年,联网设备将达到500亿,也就证明在网上会产生很大的数据,智能手机、智能终端、智能网络、智能城市的概念都是跟数据泛滥有关的。
我们有这么多的数据,应该如何处理呢?我们捕获了这么多的数据,我们知道处理数据一定要与技术联合,只要使用一些良好的技术就可以做出很不寻常的事情。在大数据分析这个方面,可以看到很多数据都是实时捕获的,可以通过实时捕获数据进行预测,并且可以实时的让人员撤退,以免受到飓风的侵害。美国在去年10月份发生过一次非常大的飓风和暴风雨,不同的传感器收集了很多数据,比如风速的数据、温度数据,从卫星得到了很多的数据。所有的数据都可以放在一个电脑上进行分析和处理,每6个小时,数据就要进行一次更新和头部。这样一来,我们就可以从数据分析得到重要的结果,可供专家和政府部门讨论,预测飓风到底会在什么时候到达美国的哪一个地方。通过这种预测的功能就可以挽救很多人的生命。
可以再给大家举一个医疗领域的例子。我们现在都在谈人类基因组的话题,人类基因组就是人类特性的蓝图。一个人类基因组有30亿对碱基对。过去五十年,美国在人类基因图的图谱方面做了很多工作,当然中国和其他国家也做了很大的贡献。我们现在已经得到了人类基因组的完整测序,我们投入了几十亿美元和13年的时间,这个工作已经接近尾声。如果我们具有大数据处理能力,可以快速地做基因组的工作,而且投入的费用也不是几十亿美金,只需要几十块钱。
只要有了人类基因组的测序分析我们就可以知道到底是哪个基因造成了人类得什么疾病。同时,我们也可以进一步地深度分析基因组以及基因组序列,而且这个过程的成本是比较低的。随着技术的发展以及我们对人类基因组和序列的了解,可以减少去医院就医的次数,而且可以预测某个基因对应什么疾病,通过这种方式可以真的改变人们的生活。
大数据的三大特点
我想给大家举几个具体的例子。现在有一个大家在热谈的例子,就是关于浪潮谈到的视频监控的功能。中国现在有1300万台监控器,尤其在伦敦,一个城市就有500万部摄像头,所有的实时视频都可以反馈到有关机构,进行非常强大的分析。我们可以监控市民的情况,比方说所谓的智能采购。你去天猫或者淘宝购物的话,马上就可以弹出一个购物建议,这是基于你之前的购买记录生成的。我经常乘波音787来中国,实际上波音787的飞机上也可以安装一些摄像头和传感器,这样我们就可以实时地得到数据,了解一个飞行器的性能、实时表现是什么样的,以便定制相应的维修和保养策略。这就是数据以及数据处理给我们带来的便捷。
下面再讲一个例子,处理大数据需要速度。来自不同的地方、不同类型的信息存常常放在相同数据中心,比方说阿里巴巴就是这种情况。还有一些数据是关于消费者以及消费者行为的。有的数据不是通过这种方式搜集的,是通过安装在飞机上的传感器搜集来的。也就是说数据来源不同,这就是所谓的数据类型的不同。 第二点就是速度。大数据的第二个特点就是速度,它们的产生速度非常快,在很短的时间可以产生很多的数据。事实上每几分钟facebook上的视频就可以多产生390万部,大数据的产生速度是不可想象的。 还有就是数据产生量十分大,它们大多数都是非常结构的数据,而且数据级比我们十年以前处理的大得多,这都是互联网的普及带来的影响。我相信到了2020年,全球产生的数据可以达到40Z。
大数据的三个特点就是多样、高速以及海量。如果你能够考虑这三个方面的关系就一定能够创造价值,可以挽救生命,可以预测自然灾害的发生,可以使人员快速撤离,可以帮助人们检测疾病,并且帮助他们预防疾病,采取防护措施。同时,可以通过视频监控来保证市民的安全,这些都是可以得到的切实的好处。
当然,还有,我相信大数据可以推动本行业的创新。大数据确实推动了创新,而且是从各个领域推动创新。现在我想跟大家讲讲创新这个方面的内容,就是芯片以及硅片如何在大数据方面发挥应有的作用。
大数据含有很多的价值,我们需要挖掘这些价值。如果想挖掘价值的话,就要关注几个问题。
第一个问题就是数据捕获。当然,我们知道数据来自不同的源头,有的是来自传感器,有的是来自网络线上交易,有的是来自消费者行为,有的是来自智能手机或者是移动设备。来自不同源头的数据的格式也不一样,我们必须用有效的方式捕获数据。 第二点是持有这些数据或者是存储这些数据。我们之前说过数据量非常大,必须得到妥善的存储和保护,数据的可访问性要非常好,所有数据都需要实时进行访问。 第三点,也是最重要的一点,就是数据分析。数据只有进行了合理分析才能获得价值,才能实时获取更多的信息,获取有价值的信息,把数据转变成信息。
我们要考虑三个问题。很多演讲嘉宾都谈到了这一点,这一点对大数据这个行业非常重要,所以我们要再次强调,工具、开源以及框架设施非常重要。开源包括软件和硬件的开源,这三大金刚是非常重要的。
开源对云计算非常重要
大家在这两天一直谈论Hadoop这个话题,Hadoop已经成为新的主流范式,而十几年前用的软件开发范式已经不适用了。之前几年的软件开发范式只适合处理结构化的数据,面对非结构化的数据,Hadoop是主流。Hadoop有一个有效的框架,可以处理非结构的数据,尤其是处理分布式数据。Hadoop有一些支持处理和分析的工具,这些是非常重要的,而且这些工具也在不断改进。我相信可以通过工具的改进进一步挖掘大数据的价值。
还有一点,是开源硬件和开源软件。开源软件这个话题大家都在谈论,对于云计算和大数据来讲,最重要的问题是实现云数据中心的有效使用,这就意味着必须有很好的存储设施和网络架构,我们必须高效率地访问这些动态资源。这些资源都是客户分享云资源时需要的。我们还需要数据中心的管理技能。当然,在这种情况下产生了OpenStack的概念,可以使软件获得相应的管理能力。
还有一点就是关于虚拟化,网络的虚拟化一定会让网络的商业价值得到深入挖掘,并且降低成本。在硬件开源这个方面也有很多事情可以做,比方说在美国进行了开源编程的项目,在中国也有另外的一个开源编程活动,主要是为了促进数据中心硬件的标准化设立。开发商和用户非常关心硬件的标准化,因为它可以提高效率、增加兼容性,并且降低成本。所以在硬件和软件的开源方面做了很多工作,也值得我们做这些工作。
另外一点就是云。云这个概念引领了一场计算机产业的变革。我们相信云所带来的商业价值在未来几年可以达到200亿美元,而且我们相信云产业价值会达到3万亿美元。
在云的架构下变得非常强大,这是全世界排名前20的网络公司,包括阿里巴巴、Facebook、亚马逊,它们占据服务器构架市场30%的份额。所以说云的服务对他们来讲非常重要。
数据流架构
下面给大家分享一个概念数据流架构,主要是关于大数据本身的分析以及传送数据。把它放在云的角度来讲,云是由三个平台构成的。首先要有终端,终端就是移动设备,终端这些移动设备主要是获取服务的设备,或者叫做载体,你可能是一个移动网络,或者是数据中心,数据中心是托管所有服务的。我们认为云的服务以及架构,以及大数据这三大概念构成了数据流的架构。
我想进一步讲解云架构、数据流的架构。十年以前我们做的事情是本地化的,比如在本地的个人电脑或者是本地的数据中心,现在已经是关于数据本身以及关乎数据的传送、数据的安全以及实时的把数据送到它该去的地方并且进行快速处理,现在的架构必须满足数据处理的要求,以及数据使用的要求。这就是为什么我们给它起了一个新名字叫做数据流的架构。
我们可以考虑一下数据流。首先需要捕获这些数据流里面的数据,数据流可以来自不同的设备,必须通过某些方式进行获取,并且存储起来,而且存储的数据中心也是超大的,可能有10万台服务器或者是100万个硬盘。当然,有些数据是放在比较少的几个数据服务器上,但这几个数据服务器的性能是非常强大的,这主要是跟数据的复杂性以及数据的数量有关。我们要根据数据的特性来搭建这种数据流的架构。当然,这主要取决于数据分析的需求,比如你是想实时的进行数据分析,还是不进行实时分析。
首先是智能网络的使用,我们现在必须认识到捕获的数据越来越多,需要对数据进行评判,这个数据的重要性是怎样的,有的时候需要评判这个数据的价值是多少。在网络上,随着数据流的流入就能够判断这个数据的类型。这就意味着我们需要更多的智能网络,以便对数据进行实时的判断。
同时,我们还需要处理各种不同的数据格式。在这个方面,其他的公司也在研究这个方面的问题。我们LSI开发了一种多核处理器,除了多核处理器以外,我们还提供了具备处理功能的硬件,这个硬件能够评判这个数据到底是什么样的格式,比如它是不是视频数据,以及这个数据是要实时应用,还是这个数据只是支持视频聊天的数据类型。也就是说这个硬件是智能的,将经过认证的数据分成若干类型进行实时分类,并且进行初步的智能判断。在接下来的两到三年,两个比较大的网络公司就会采用我们这种技术。所以我也相信通过智能硬件的使用,网络流量会降低50%,大大节省带宽。
还有一点是关于灵活性。我们处理的数据量非常大,而且是存储在非常大的数据中心当中,其中有特别多的硬盘,硬盘损坏是了不得的事情,我们必须使这个硬盘的复原性非常好。现在数据中心头疼的问题就是希望保证一定量的硬盘在工作的状态,而且也不希望它们的性能受到任何影响。
我们今天是使用一种特殊的存储技术,我们可以对数据进行定位,了解到它存在哪个服务器当中。但是,传统的方式是依靠存储的物理位置。现在,我们需要通过一个机架服务器将分布在不同服务器上的数据进行整合,这样就可以提高数据的备份能力。
最后一个挑战是效率。大数据受到一些制约,你树立数据的速度有多快,并且得到结果。这与你的IT预算相关。如果你的预算越大,就可以买越多的服务器。但是,我们都没有无限的IT预算。所以说这是一个挑战。
怎么样应对这个挑战呢?我们现在用一些闪存的技术,使得数据在应用和分析过程中取得不同的效果。可以加快应用的速度,速度可以提升15%。利用这种技术使得IT架构用更少的钱,同时保持同样的性能。我们用flash的技术可以保证传统的CPU和硬盘存储之间的延迟状态。现在我们用很多的flash应对大量的基础设施、基础架构和大量的数据组。我们现在主要是关注网络和架构。主要是要捕获分析信息和数据。我们非常高兴看到移动网络在云计算方面的发展,以后也会有很大的发展。
我最后来总结一下,我们的创新处在哪个状态,以及社会的情况。在六七十年代,可以说是在创新之前,我们是作为创新的社会开始。在这之后,创新的速度很快,从硅谷到半导体处理器,能够给我们带来很高的集成度,使经济高速发展,这正是基于IT技术的推动。还有就是个人电脑方面、移动网络方面以及移动设备方面都经历了很大发展,我们现在进入了数据中心的时代,数据等于是新的货币。
我们刚刚所说的重要理念是大数据改变着我们的社会和世界,我们可以从中获取更多的价值。硅谷一直都是重要的基础平台,使得我们在大数据方面取得更大的进展。我们的生活每天都在发生变化,我们的消费方式、网络购物的方式将在未来五年获得更安全的体验,在我们所生活的领域将在安全方面有很大的提升。
在计算的架构上会转向数据流的架构,确保容错能力,并且在恰当的时间得到需要的结果。硅谷会在这个方面发挥非常重要的作用。
谢谢大家的聆听。
(责任编辑:蒙遗善)