微软王枫:云计算与大数据时代下的新世界

10月25日,2012云计算架构师峰会在北京召开。近几年,IT技术与互联网的发展影响了整个产业的格局,带来了全新、鲜活的业务模式。面对这些变革,本届大会邀请了百余位行业内精英针对IT技术发展和应用的实践经验等热门话题进行深入探讨。微软亚太研发集团中国云计算创新中心总监王枫先生带来精彩演讲,演讲的主题是“大数据的新世界”,以下为演讲实录:

今天首先很高兴有这样一个机会跟各位领导,还有IT界的同仁们一块共享一下云计算作为现在IT新一轮的潮流。刚才北航的孙院长讲了一句话,现在是IT界的乱世,乱世出英雄。我想大家也很清楚,随着下一代IT趋势作为互联网新的IT技术的发展,大家现在确实进入到IT的新阶段,在这个阶段里,我想最主要的就是三个主要领域,第一个就是云计算,第二是物联网,第三就是大数据。

我想强调一下,其实从云计算来说,它最主要的带给IT、带给人类的三个主要的优势,一个是它的经济性,一个是它的快捷性,一个是它可以通过云计算来让企业实现更多的创新。在这里,一个最主要的就是对资源的整合。大家听到云计算里有一个最关键的词,资源池,它等于把所有的资源数据通过云计算的技术、云计算的理念能够整合起来,在这里面数据是非常非常主要的。云计算咱们刚才听到了不管是IBM的同仁,孙博士讲到了各种各样的应用,其实所有的应用,数据是其中一个主要的核心,不管你是基础设施、不管你的平台、不管你的应用,没有数据,你就是一个空的架子。从物联网角度来说,它实际上主要是对目标的所有属性进行采集,对这些属性进行跟踪、管理和分析,这些属性是什么?就是数据。所以,在开场这一段我想说的,所有的这一切都是数据在云计算和物联网里面最主要的,也是下一代IT趋势的一个最主要的核心。我今天主要的重点是专注于大数据,大概从几个方面,一个是大数据的概念,什么是大数据,为什么是大数据,现在大数据的重要性。接下来,从大数据的生命周期、主要的一些环节、主要有哪些技术去实现大数据给我们IT、给人类和企业所带来的价值,微软在这方面有哪些创新,我们在国内外有哪些案例,大概从这几个方面来介绍。

这个幻灯片刚才徐博士也播放过了,现在为什么在这个时间段大家进入了一个大数据的阶段?我想主要的原因是很多的设备,不管是无线设备、公共互联网,包括各种各样社交网站、各种各样互联网的应用带来的数据膨胀,包括云计算、包括硬件各个方面。随着这些技术,随着这些互联网平台,随着设备不断的成熟、不断的扩大,由此而产生的数据就生长到了一个非常大的程度。同时,为什么大家说大数据这个概念?实际上在10年前,20年前,也有很多数据的膨胀,为什么现在我们要提到大数据是IT趋势里很重要的一个环节呢?因为我想要做到对于数据的处理能够更有效,你还需要硬件,在计算、在存储、在各个方面有足够的就绪,同时它的成本能够降低。就像刚才徐博士讲的,如果说在10年前、20年前,1G硬盘需要花很多的钱,咱们也不需要去谈大数据。云计算也好、大数据也好,其实最主要的给企业和政府带来的利益就是它经济上的价值。从这点来说,我想现在IT进入到了这么一个领域,通过有这么样的一个不管是在硬件、在软件各个方面就绪的这么一个阶段。

大家可能有一个很常见的问题,什么是大数据?从大和数据这两个词语里面大家可能有一个直观体会,第一是数据,第二是大,这个大代表什么意思?从几个方面,第一,所谓的大数据,主要的原因是随着IT的发展,随着互联网的成熟,随着刚才所讲的各种各样数据源的成熟,在这个世界上现在产生了各种各样的数据,这些数据不光是它的数量的大小,同时是它的种类的繁多,不再像传统那样,很多结构化的数据,现在有各种各样非结构化的数据,这些数据可以是视频、可以是音乐、可以是文件、可以是各种版本的文件。这些东西随着这些现有的技术,滋生出来各种各样的数据,它就形成了一个大数据的“大”的概念,所以这个大不简简单单是尺寸的大小,表示了这个数据的复杂性。

大家可以看到,通过这张图,实际上在互联网之前,主要的数据来源是企业内部的数据源,每一个企业有自己的IT中心,有面向企业的应用,通过ERP等各种各样的数据。互联网是一个非常大的创新,通过互联网实际上对应用和数据提供了一个庞大的平台,在互联网上就滋生出各种各样的数据,大家现在听到过一个词IT消费,我们每个人所接触到的数据,或者你作为一个数据的发源体,所产生的数据是无穷无尽的。最近IDC有一个统计,到目前为止,整个世界的数据量是达到了一千个ZD,ZD是一个什么概念呢?ZD相当于10个亿的PD,这个数据量已经膨胀到非常非常大的阶段。在这个基础上,同时,我想根据IDC的报告,在接下来的十年时间里面,这个数据还会继续扩展,可能会扩展到一千个ZD的几十倍,这就带来了大数据它会给我们IT、会给我们企业带来什么样的价值,这一点实际上是大数据最关心的,也是大数据最主要的一个核心。如果我来定义大数据的话,我通过底下的这么一个图表,其实大数据是一个产业链,也就是说数据现在在那里,很多可能是free的,有一千多个ZD的数据,你怎么利用这些数据去发掘它的潜能,必须要有产业链,从数据的产生到数据的采集,到数据的存储,到数据的发送,到数据的处理,到数据的分析,到最后,通过你把这些数据产生出来的分析结果,如何用它去指导你的企业,并制定企业更好的方针和政策,所以它是一个产业链的概念,在每一个环节都是不可缺少的。

随着大数据的趋势和大数据的现状,确实也给企业带来了很多问题,包括一些挑战,大数据在那里,我也知道它的价值,那么我怎么去通过大数据来发掘出它对我企业能够制定更好的方针和政策,如何去更好的处理实时的数据,通过我刚才讲的产业链,采集、存储、处理、分析各个方面,最后如何通过更好的工具去分析,我把这些数据可视化。这些都是摆在企业面前的一个挑战和创新。

大数据确实是给企业、给世界、给IT,包括政府在内,提供了很多的机遇。其中之一,就是对于企业的决策,任何一个企业的决策,他通过什么去保证他能够制定更好的方针和政策,我想这个东西不能只是拍拍脑袋,要根据一些真凭实据,现在有这么好的数据资源,怎么更好的利用,这是很重要的。大家可以看到,将近50%以上,现在在世界的各个企业的领导者都知道怎么去应用大数据来做企业规划和战略的制定。同时,大数据是一个产业链,这个产业链不光是虚拟的概念,它同时也带动了不光是在软件上,IT的服务、软件的开发,包括硬件,我刚才讲了,大数据离不开硬件的基础、计算、存储,也带动了整个IT的商业发展。

刚才讲了一些概念,接下来我会从大数据的生命周期,我们微软认为最主要的三个阶段,来给大家做一些具体的介绍。这三个生命周期,第一,首先你要把这些数据采集起来,通过什么样的方式。第二,这些数据要存储,以什么样的存储技术,能够保证它的安全性,它的不间断性、可持续性、扩展性。在这个基础上,当你也了数据以后,如何去把这些数据做处理,去丰富、去满足你企业所想要的要求。最后,如何在这个基础上,通过你已经处理好的、已经整合的、已经清理干净的数据,来在上面做分析,来做格式化的展现。所以,这三个我想对于实现大数据的价值是非常非常重要的环节。

说到存储,大数据对存储的要求是非常非常高的,我想从简单的技术层面来说,你能够存多大的数据量,你数据的安全性、不可间断性、可持久性、扩展性,是这些数据存储的基本技术。从另一点来说,大家又会面临一个问题,也就是说现在大家说到云计算,一般来说,在一个IT的应用里,在数据存储这块无非有几种方式,一种是传统IT的方式,也就是说每一个企业邮自己的数据中心,这个数据中心既可以是传统的物理机的模式,没有采用云计算的技术,也可以是一个私有云,同时像徐博士也讲了,微软有自己的公有云,不光是微软,还有业界的其他公司也有公有云的这种模式,我也可以通过公有云来存储管理我的数据。这里面有什么区别呢?我想给大家总结一下,比较大的区别,因为刚才徐博士也不断强调安全,我想对于公有云的模式,实际上安全包括网络上的速度可能是一个比起私有云和你自己的数据中心来讲,是一个你需要考虑的因素。因为你一旦放在公有云上,你一旦开放了,你一旦通过很多的网络,通过外网就会很必然的,特别是数据量很大,像大数据这么大的数据量,各种各样复杂的数据,虽然能够帮你节省管理和运营的成本,你不需要自己管理运营数据中心,但是也有它的弊病。从另一点来说,如果是你企业自己内部的一个内网监控下的私有云,或者传统的数据中心来说,你可以通过你自己的控制,来保证它的安全,来提高你的效率,特别是数据中心的效率。

从这个角度来说,混合云,在一种混合的模式下可能是一种最好的方式。也就是说对于大数据的处理,你可以根据企业的业务特性,来制定哪些应用、哪些数据需要通过私有云的方式,哪些需要放在公有云上,来利用公有云的优势,这样对于企业来说,最后是以私有云的方式来管理存储大数据。

从存储的角度,我想再回到核心的技术,最主要的有两点,第一,关系型的数据中心,第二,非关系型数据中心。比如说微软SQLServer已经不简简单单针对结构化的数据,各种各样的数据类型,SQLServer都有这个能力去处理存储,甚至可以自定义自己的数据类型,有些数据类型可以通过它提供的技术自定义,同时因为它是关系型数据库,对于刚才我讲的大数据、复杂的数据,可以利用各种各样的技术进行查询、索引,比如刚才讲的全文本的查询、非结构化的属性的查询,都可以通过它提供的各种各样的技术来管理、存储,来更好的利用这些数据。

另一点来说,叫非关系型数据存储技术,它跟关系型的差别是什么呢?主要的重点是说我只是专注于数据的读取,关系型的数据存储非常复杂,对于非关系型的数据,比如说大的视频、大的音频,其实你更关心的只是我这个数据怎么存储、怎么把它拿出来、做一些简单的属性上的查询,不需要太复杂的关系型的操作。SQLServer的好处,从性能上、从效率上、从操作的简单上,相应来说比关系型数据库有它的优势。但是从这点来说,我想这是两个不同的技术。从微软来说,SQLServer是微软大数据平台,特别是在存储的角度。

再讲一下HADOOP,实际上HADOOP最主要的特性就是它提供了一种世界IT领先的技术,去如何通过这种并行的技术处理各种各样的数据,通过HADOOP自己存储的空间,或者说跟微软的存储集成,但是最主要的它是世界领先的数据处理技术,一千个ZD的数据怎么去处理它,怎么样利用现有的硬件资源去并行的处理,去达到智能性的处理,HADOOP无疑是现在非常领先的IT技术。从微软的角度,我们利用大数据的平台跟HADOOP的集成,更好的去为用户提供这种灵活和方便的技术。

我举几个例子,通过我们的活动目录跟HADOOP的集成,能够更好的提高HADOOP对数据的安全性,通过云计算主要的管理工具跟HADOOP的集成,能够跟HADOOP为主的大数据的处理提供一套最先进、最灵活的管理方式。通过SQLServer,它的存储也好、它的商业智能跟HADOOP的集成,能够把HADOOP处理完的数据更好的展现给大家。所以,我们跟HADOOP的集成也是做到了淋漓尽致的地步,同时从微软的角度,我们也提供了一个对于开元、更开放的平台,跟世界IT领先技术进行了很好的结合。

(责任编辑:蒙遗善)

时间: 2024-10-22 15:30:08

微软王枫:云计算与大数据时代下的新世界的相关文章

“大数据时代下的云计算”2013企商云计算研讨会

2013年,云计算产业风起云涌,云计算应用层出不穷.金色的十一月,我们迎来了企商在线举办的"大数据时代下的云计算"研讨会 .此次大会联合了中国计算机报,盛邀云计算用户.云计算和信息化行业专家,共论顺应云计算趋势.应用云计算和大数据带来的优势,来推动企业转型升级,从而提高企业应变能力. 日前,"大数据时代下的云计算"在古老文明与现代文明集于一体的文化殿堂--中国国家图书馆(古籍馆)-临琼楼二楼隆重召开,参加此次云计算研讨会的企业有200余家,涉及媒体.教育.电商.研发

云计算与大数据时代的投资机遇和挑战

2013中国国际云计算技术和应用展览会于4月7日在京举办,云基地执行董事秦捷受邀作为演讲嘉宾出席会议,并做<风险资本的投资机遇和挑战>主题演讲.他在会上阐述云计算与大数据时代带来的机会.挑战及问题,以及并解释Gartner's Hype Cycle 与风险投资的关系. 互联网化:资源集中和云服务 互联网的存在促使数据量急剧增大,在大数据量的基础上产生云计算,所以秦捷认为云计算革命在十年前就已经存在.他表示大数据产生的主要因素有四个:计算机的计算资源.存储.带宽.网络接入的增长. 为什么大型互联

中昇国计张学军:云计算与大数据时代的计算机终端安全

ZDNET安全频道 05月08日 综合消息: 第十五届中国信息安全论坛今日在北京召开,中昇国计研发部经理张学军带来<云计算与大数据时代的计算机终端安全>的主题演讲.现场文字整理如下: 大家上午好! 大家知道,在云计算与大数据时代背景下,因为数据更加集中,所以信息泄露会造成更大的危害. 这里简单列举一下国内外出现的各种安全威胁事件,比如2011年,中国的CSDN网站中的超过600万的用户信息泄露,填鸭社区四千万用户资料包括明文密码泄露,在去年如家七天酒店两千万条客户开放信息泄露.在上个月,携程的

硬盘是云计算与大数据时代的核心硬件

 研究显示,2020年一年产生的数据将高达25ZB,即使仅存储这些数据就需要250亿个1T硬盘.大数据爆炸式的数据增长需要更大的存储空间,云存储这种新型的IT资源生态将成为大数据时代的首选解决方案.然而归根到底,一切数据的存储基础还是硬盘,硬件是数据的载体,大数据时代数据越来越多,需要的硬盘就越多. 需求促增长 硬盘在云时代焕发新的生机 硬盘是云数据中心的核心部件,不仅关系到云计算与大数据的服务.计算和性能,更关系到整个云数据中心平台的TCO.在云计算和大数据时代,爆炸式数据的增长对容量要求越来

云计算和大数据时代热潮翻滚而来,云主机应运而生

目前让众多http://www.aliyun.com/zixun/aggregation/32834.html">业内人士迷惘的云计算,只是应用为搜素和电商这些领域当中,可是大数据时代的来临,未来前景十分广阔.其实在第五届中国云计算大会在北京召开,众多互联网技术人员和中国运营商已经转入真正实战阶段,更好地应用大数据. 对于大型互联网公司来说,大数据开放不但让他们合理利用有效资源,将闲置的资源发掘出来提高平台的新生能力,同时还能存储这所有数据资源根据其制定合理的营销计划,创造更高的品牌和市场

大数据时代下的意图搜索 个性化服务是关键

意图搜索起源于互联网搜索引擎,是基于互联网上海量的无组织.异构.动态的数据与信息环境下搜索引擎不能准确理解用户的搜索意图而提出的,利用如神经网络算法等机器学习方法实现智能化的自动搜索,从而更加精准.主体的提供个性化的服务. 大数据时代下的意图搜索个性化服务是关键 一.目的意义 大数据时代,任何网络行为所留下的"蛛丝马迹"都以数据的形式隐藏在大数据中,正所谓"存在就有痕迹,联系就有信息",通过应用物联网.大数据.人工智能等技术,构建网络空间中行为事件.思想事件等模型.

大数据时代下的个人信息安全

伴随着科技进步,互联网及移动互联网的快速发展,云计算大数据时代的到来,人们的生活正在被数字化,被记录,被跟踪,被传播,大量数据产生的背后隐藏着巨大的经济和政治利益.大数据犹如一把双刃剑,它给予我们社会及个人的利益是不可估量的,但同时其带来个人信息安全及隐私保护方面的问题也正成为社会关注的热点.今年两会期间,维护网络安全被首次写入政府工作报告.全国政协委员.联想集团董事长兼CEO杨元庆也在会议上呼吁"政府对个人信息安全立法,加强监管,并在整个社会中树立起诚信文化".大数据时代下维护个人安

大数据时代下惠普的惊人超越之路

文章讲的是大数据时代下惠普的惊人超越之路,据IDC预测,全球数据量将从2014年的4.4ZB增长至2020年的44ZB.企业拥有一个前所未有的契机来利用这些信息创造有利可图的商机.然而,存储并管理所有这些数据的巨大压力让整个亚洲公司的IT部门不堪重负. 2015年,随着"互联网+"概念的提出,传统企业受到多重挑战,用户的个性化需求.互联网公司的兴起.宏观环境和同业及跨界竞争等方面正在倒逼着传统企业进行转型.IT在企业中扮演的角色也将由"传统支持"走向"业务

大数据时代下,CIO需要挖掘大数据背后的价值

云计算.大数据.移动化的技术浪潮中,创新管理与产品模式不断--云管理.云手机.云电视等陆续推出.在企业级市场,作为企业IT系统的核心基础设施,数据中心的建设.管理与运维也被推至举足轻重的地位. 云计算.大数据.移动化的技术浪潮中,创新管理与产品模式不断--云管理.云手机.云电视等陆续推出.在企业级市场,作为企业IT系统的核心基础设施,数据中心的建设.管理与运维也被推至举足轻重的地位. 大数据时代下,CIO需要挖掘大数据背后的价值,这就要求既要拥有海量数据,又要拥有海量数据的接入设备,以及实时的计