10月25日,2012云计算架构师峰会在北京召开。近几年,IT技术与互联网的发展影响了整个产业的格局,带来了全新、鲜活的业务模式。面对这些变革,本届大会邀请了百余位行业内精英针对IT技术发展和应用的实践经验等热门话题进行深入探讨。微软亚太研发集团中国云计算创新中心总监王枫先生带来精彩演讲,演讲的主题是“大数据的新世界”,以下为演讲实录:
今天首先很高兴有这样一个机会跟各位领导,还有IT界的同仁们一块共享一下云计算作为现在IT新一轮的潮流。刚才北航的孙院长讲了一句话,现在是IT界的乱世,乱世出英雄。我想大家也很清楚,随着下一代IT趋势作为互联网新的IT技术的发展,大家现在确实进入到IT的新阶段,在这个阶段里,我想最主要的就是三个主要领域,第一个就是云计算,第二是物联网,第三就是大数据。
我想强调一下,其实从云计算来说,它最主要的带给IT、带给人类的三个主要的优势,一个是它的经济性,一个是它的快捷性,一个是它可以通过云计算来让企业实现更多的创新。在这里,一个最主要的就是对资源的整合。大家听到云计算里有一个最关键的词,资源池,它等于把所有的资源数据通过云计算的技术、云计算的理念能够整合起来,在这里面数据是非常非常主要的。云计算咱们刚才听到了不管是IBM的同仁,孙博士讲到了各种各样的应用,其实所有的应用,数据是其中一个主要的核心,不管你是基础设施、不管你的平台、不管你的应用,没有数据,你就是一个空的架子。从物联网角度来说,它实际上主要是对目标的所有属性进行采集,对这些属性进行跟踪、管理和分析,这些属性是什么?就是数据。所以,在开场这一段我想说的,所有的这一切都是数据在云计算和物联网里面最主要的,也是下一代IT趋势的一个最主要的核心。我今天主要的重点是专注于大数据,大概从几个方面,一个是大数据的概念,什么是大数据,为什么是大数据,现在大数据的重要性。接下来,从大数据的生命周期、主要的一些环节、主要有哪些技术去实现大数据给我们IT、给人类和企业所带来的价值,微软在这方面有哪些创新,我们在国内外有哪些案例,大概从这几个方面来介绍。
这个幻灯片刚才徐博士也播放过了,现在为什么在这个时间段大家进入了一个大数据的阶段?我想主要的原因是很多的设备,不管是无线设备、公共互联网,包括各种各样社交网站、各种各样互联网的应用带来的数据膨胀,包括云计算、包括硬件各个方面。随着这些技术,随着这些互联网平台,随着设备不断的成熟、不断的扩大,由此而产生的数据就生长到了一个非常大的程度。同时,为什么大家说大数据这个概念?实际上在10年前,20年前,也有很多数据的膨胀,为什么现在我们要提到大数据是IT趋势里很重要的一个环节呢?因为我想要做到对于数据的处理能够更有效,你还需要硬件,在计算、在存储、在各个方面有足够的就绪,同时它的成本能够降低。就像刚才徐博士讲的,如果说在10年前、20年前,1G硬盘需要花很多的钱,咱们也不需要去谈大数据。云计算也好、大数据也好,其实最主要的给企业和政府带来的利益就是它经济上的价值。从这点来说,我想现在IT进入到了这么一个领域,通过有这么样的一个不管是在硬件、在软件各个方面就绪的这么一个阶段。
大家可能有一个很常见的问题,什么是大数据?从大和数据这两个词语里面大家可能有一个直观体会,第一是数据,第二是大,这个大代表什么意思?从几个方面,第一,所谓的大数据,主要的原因是随着IT的发展,随着互联网的成熟,随着刚才所讲的各种各样数据源的成熟,在这个世界上现在产生了各种各样的数据,这些数据不光是它的数量的大小,同时是它的种类的繁多,不再像传统那样,很多结构化的数据,现在有各种各样非结构化的数据,这些数据可以是视频、可以是音乐、可以是文件、可以是各种版本的文件。这些东西随着这些现有的技术,滋生出来各种各样的数据,它就形成了一个大数据的“大”的概念,所以这个大不简简单单是尺寸的大小,表示了这个数据的复杂性。
大家可以看到,通过这张图,实际上在互联网之前,主要的数据来源是企业内部的数据源,每一个企业有自己的IT中心,有面向企业的应用,通过ERP等各种各样的数据。互联网是一个非常大的创新,通过互联网实际上对应用和数据提供了一个庞大的平台,在互联网上就滋生出各种各样的数据,大家现在听到过一个词IT消费,我们每个人所接触到的数据,或者你作为一个数据的发源体,所产生的数据是无穷无尽的。最近IDC有一个统计,到目前为止,整个世界的数据量是达到了一千个ZD,ZD是一个什么概念呢?ZD相当于10个亿的PD,这个数据量已经膨胀到非常非常大的阶段。在这个基础上,同时,我想根据IDC的报告,在接下来的十年时间里面,这个数据还会继续扩展,可能会扩展到一千个ZD的几十倍,这就带来了大数据它会给我们IT、会给我们企业带来什么样的价值,这一点实际上是大数据最关心的,也是大数据最主要的一个核心。如果我来定义大数据的话,我通过底下的这么一个图表,其实大数据是一个产业链,也就是说数据现在在那里,很多可能是free的,有一千多个ZD的数据,你怎么利用这些数据去发掘它的潜能,必须要有产业链,从数据的产生到数据的采集,到数据的存储,到数据的发送,到数据的处理,到数据的分析,到最后,通过你把这些数据产生出来的分析结果,如何用它去指导你的企业,并制定企业更好的方针和政策,所以它是一个产业链的概念,在每一个环节都是不可缺少的。
随着大数据的趋势和大数据的现状,确实也给企业带来了很多问题,包括一些挑战,大数据在那里,我也知道它的价值,那么我怎么去通过大数据来发掘出它对我企业能够制定更好的方针和政策,如何去更好的处理实时的数据,通过我刚才讲的产业链,采集、存储、处理、分析各个方面,最后如何通过更好的工具去分析,我把这些数据可视化。这些都是摆在企业面前的一个挑战和创新。
大数据确实是给企业、给世界、给IT,包括政府在内,提供了很多的机遇。其中之一,就是对于企业的决策,任何一个企业的决策,他通过什么去保证他能够制定更好的方针和政策,我想这个东西不能只是拍拍脑袋,要根据一些真凭实据,现在有这么好的数据资源,怎么更好的利用,这是很重要的。大家可以看到,将近50%以上,现在在世界的各个企业的领导者都知道怎么去应用大数据来做企业规划和战略的制定。同时,大数据是一个产业链,这个产业链不光是虚拟的概念,它同时也带动了不光是在软件上,IT的服务、软件的开发,包括硬件,我刚才讲了,大数据离不开硬件的基础、计算、存储,也带动了整个IT的商业发展。
刚才讲了一些概念,接下来我会从大数据的生命周期,我们微软认为最主要的三个阶段,来给大家做一些具体的介绍。这三个生命周期,第一,首先你要把这些数据采集起来,通过什么样的方式。第二,这些数据要存储,以什么样的存储技术,能够保证它的安全性,它的不间断性、可持续性、扩展性。在这个基础上,当你也了数据以后,如何去把这些数据做处理,去丰富、去满足你企业所想要的要求。最后,如何在这个基础上,通过你已经处理好的、已经整合的、已经清理干净的数据,来在上面做分析,来做格式化的展现。所以,这三个我想对于实现大数据的价值是非常非常重要的环节。
说到存储,大数据对存储的要求是非常非常高的,我想从简单的技术层面来说,你能够存多大的数据量,你数据的安全性、不可间断性、可持久性、扩展性,是这些数据存储的基本技术。从另一点来说,大家又会面临一个问题,也就是说现在大家说到云计算,一般来说,在一个IT的应用里,在数据存储这块无非有几种方式,一种是传统IT的方式,也就是说每一个企业邮自己的数据中心,这个数据中心既可以是传统的物理机的模式,没有采用云计算的技术,也可以是一个私有云,同时像徐博士也讲了,微软有自己的公有云,不光是微软,还有业界的其他公司也有公有云的这种模式,我也可以通过公有云来存储管理我的数据。这里面有什么区别呢?我想给大家总结一下,比较大的区别,因为刚才徐博士也不断强调安全,我想对于公有云的模式,实际上安全包括网络上的速度可能是一个比起私有云和你自己的数据中心来讲,是一个你需要考虑的因素。因为你一旦放在公有云上,你一旦开放了,你一旦通过很多的网络,通过外网就会很必然的,特别是数据量很大,像大数据这么大的数据量,各种各样复杂的数据,虽然能够帮你节省管理和运营的成本,你不需要自己管理运营数据中心,但是也有它的弊病。从另一点来说,如果是你企业自己内部的一个内网监控下的私有云,或者传统的数据中心来说,你可以通过你自己的控制,来保证它的安全,来提高你的效率,特别是数据中心的效率。
从这个角度来说,混合云,在一种混合的模式下可能是一种最好的方式。也就是说对于大数据的处理,你可以根据企业的业务特性,来制定哪些应用、哪些数据需要通过私有云的方式,哪些需要放在公有云上,来利用公有云的优势,这样对于企业来说,最后是以私有云的方式来管理存储大数据。
从存储的角度,我想再回到核心的技术,最主要的有两点,第一,关系型的数据中心,第二,非关系型数据中心。比如说微软SQLServer已经不简简单单针对结构化的数据,各种各样的数据类型,SQLServer都有这个能力去处理存储,甚至可以自定义自己的数据类型,有些数据类型可以通过它提供的技术自定义,同时因为它是关系型数据库,对于刚才我讲的大数据、复杂的数据,可以利用各种各样的技术进行查询、索引,比如刚才讲的全文本的查询、非结构化的属性的查询,都可以通过它提供的各种各样的技术来管理、存储,来更好的利用这些数据。
另一点来说,叫非关系型数据存储技术,它跟关系型的差别是什么呢?主要的重点是说我只是专注于数据的读取,关系型的数据存储非常复杂,对于非关系型的数据,比如说大的视频、大的音频,其实你更关心的只是我这个数据怎么存储、怎么把它拿出来、做一些简单的属性上的查询,不需要太复杂的关系型的操作。SQLServer的好处,从性能上、从效率上、从操作的简单上,相应来说比关系型数据库有它的优势。但是从这点来说,我想这是两个不同的技术。从微软来说,SQLServer是微软大数据平台,特别是在存储的角度。
再讲一下HADOOP,实际上HADOOP最主要的特性就是它提供了一种世界IT领先的技术,去如何通过这种并行的技术处理各种各样的数据,通过HADOOP自己存储的空间,或者说跟微软的存储集成,但是最主要的它是世界领先的数据处理技术,一千个ZD的数据怎么去处理它,怎么样利用现有的硬件资源去并行的处理,去达到智能性的处理,HADOOP无疑是现在非常领先的IT技术。从微软的角度,我们利用大数据的平台跟HADOOP的集成,更好的去为用户提供这种灵活和方便的技术。
我举几个例子,通过我们的活动目录跟HADOOP的集成,能够更好的提高HADOOP对数据的安全性,通过云计算主要的管理工具跟HADOOP的集成,能够跟HADOOP为主的大数据的处理提供一套最先进、最灵活的管理方式。通过SQLServer,它的存储也好、它的商业智能跟HADOOP的集成,能够把HADOOP处理完的数据更好的展现给大家。所以,我们跟HADOOP的集成也是做到了淋漓尽致的地步,同时从微软的角度,我们也提供了一个对于开元、更开放的平台,跟世界IT领先技术进行了很好的结合。
(责任编辑:蒙遗善)