8月19-20日,由工业和信息化部批准,中国通信学会主办,中国电信、中国移动、中国联通协办,信通创展承办的2014中国国际大数据大会在京成功召开。下面是工信部电信研究院高巍在“联合变革 开放创新”分会场的演讲。
高巍:
今天演讲的主题是《大数据产业进展和发展策略的思考》,我们研究院2012年开始在大数据方面进行了持续的研究,今天我也希望借这个机会分享一下我们的研究成果和想法。
今天的演讲一共是这么三个部分:一个是大数据发展的脉搏,第二个是我们目前所看到的大数据技术、产业和应用发展的进展,第三点是大数据发展政策及思考。
首先,简单看一下所谓大数据的起源和断代。自从人类有了文明之后就开始有了数据,当然大数据也是随着人们文明不断的演化。我们现在所说的大数据,当然是从计算机计算技术出现之后,才出现的概念。
从50年代开始计算机技术得以发展,至今我们是以处理结构化数据的脉络,一直到90年代提出数据仓储、数据挖掘、BI的概念,实际还是沿着结构化数据的脉络。我们说,99-00年左右,互联网的爆发增长体现出了现在的态势,一个是数据量的增大,99-00年web网页的数量达到了40亿,达到了TD级的数据。另外,web出现之后,给互联网带来了富媒体的内容,带来了更多的数据。
我们觉得,除了这些基本的特性之外,我们还需要从一些理念的高度去理解大数据,现在的信息社会,信息当中蕴含着很多价值,像金矿一样,我们原来没有手段和工具去挖掘,而现在要长期这样的工具。原来我们依靠单机的数据库方式,可能并不是非常好的工具,而现在有自动的智能深度分析,这样的工具出现,使我们逐渐有了能力挖掘大数据。
我们如何看待数据本身?传统的方式,可能大家在很多场合也提到,传统的方式是抽样,但现在由于工具的改变,技术的提升,我们可以以全级的方式分析数据,同时我们分析的时候是寻找数据的相关关系,就是我们对待数据的理念上产生了变化。
下面,简单分享一下我们对大数据技术应用的看法。
从数据的技术角度,大致就这三个层面:第一个是预处理,数据的抽取、数据的转换、数据的加载。第二个是数据经过预处理之后进行存储、计算、分析的过程,这是数据价值战斗的过程。第三个是数据的可视化,我们如何把数据转换成大众易于理解、易于形成决策的方式,类似我们在春节的时候新闻中不断在放百度对春运的大数据。
现在的大数据处理跟传统的数据处理还是同样这三个环节,只不过因为现在一是数据量的爆发,第二是非结构化数据的引入,第三是对处理需求的出现,使得不同环节在技术上面对不同的挑战。
首先主要的挑战在于不是结构化数据,而是来自于不同的数据源,或者多模态的数据,这些数据是非结构化数据的,如何进行统一的关键数据抽取,这是现在面临的一个挑战。另外是数据的存储,现在互联网数据以PB级计算,如果还是用传统的存储方式,包括IO性能和成本上都没办法承载。所以,现在提出了低成本基于分布式的数据架构。
同时,这种计算的场景,我们最初在搜索引擎这个时代,其实它并不要求数据处理的实时化,它采用的是批处理的方式,我把结果处理出来之后可以提供给他使用。但是,现在在线的应用,需要实时的数据处理,甚至还需要对其它不同结构的,包括以图结构来呈现的数据处理,原来以数据批处理的方式已经不再适用了,现在出现类似于像sdop(音)流式实时处理的架构。
原来结构化数据的分析,更多是用原有模型进行分析和处理,但是现在我们面对着大量的非结构化数据,可能鲜艳的知识模型没有办法应对现在这种新的不断变化的数据。那么怎么办?所以现在出现基于自动化的继续学习,使整个数据的分析过程,完全实现自动化,不需要人工干预。
最后就是数据的可视化,如何能够实现直观的用户可以理解的结果,这是由于数据产生的方式,数据本身形态的变化,使得大数据技术不断进展。从技术本身来看,我们认为大数据技术的发展和创新,呈现这样三个阶梯的状态,从原创技术到开源社区,到最后的产品。其实,对应到我们产业界,对应着不同的企业群体,跟大家现在所看到的,这个数据分析的基础是Google04年通过几篇论文提出来的。实际上,Google在2000年之前已经拥有这些技术,三四年之后他通过学术论文的方式把这种技术和思想公开出来,当然由这个技术公开之后形成开源社区的版本,可能又过了3-4年的时间。所以说,从原创到最后的开源,中间会有5-6年的时间差。
目前大多数的企业,是沿着开源的方向走,在开源里汲取营养。但还有其它一些公司,他希望把开源社区的版本变成商品,变成一种可以实现企业级应用的产品,这在开源领域又之后3-4年。其实,也就是从互联网领先的企业到互联网的领域,到社会的其它领域,其实呈现出了这三个不同的发展阶段。
刚才一直提到互联网,实际上互联网行业确实是目前大数据应用的领跑者,因为从最初互联网应对自身的数据分析处理的需要,到现在互联网已经基于大数据的分析衍生出很多能够产生商业价值的商业模式,包括基于可穿戴设备的数据处理,包括现在大家炒的很热的像阿里小额贷款,基于阿里商户几年之间积累的信用数据,来给这些商户发放小额贷款,这比原来传统金融征信的方式,其实有了很大的精准性和可靠性,成本有大幅下降。我们看,到今年年初,阿里小贷已经贷出了700多亿的规模,不良率是低于1%的,这对于传统的金融来说是非常好的水平。
而像腾讯、百度,也有类似的产品和服务。当然,这其实都是针对自身的在淘宝上的商户,百度是针对他的广告用户。当然,最近几年RTD,这种精准的广告方式的出现,RTD目前在国内量还比较小,目前也就是3-4%的互联网广告份额,但在美国现在已经占到了20%左右。RTD不是卖传统的广告位,而是由广告商掌握用户的数据,知道他所有用户的喜好偏好,所以给他自己的广告用户提供非常精准的定制化广告服务,我就把这个产品推送到给你最希望看到这个广告人的面前,这就使广告价值得到了大大提升,广告主可以根据广告的质量来进行定价,来进行这样的广告投放,这样就大大提高了广告的精准率。
现在有很多商业模式都进行了大数据的分析,包括学习也在改变,不是原来灌输式的强制性的告诉你要学什么东西,而是根据喜好我要学什么东西,这些都在慢慢改变。
另外,刚才提到了互联网,从互联网加速向传统领域拓展,互联网公司大部分是技术公司,这对传统行业来说,IT只是他业务边缘的一个部门。我们虽然看到现在大数据的应用在慢慢拓展,包括智慧政府,现在可以看到各国在逐渐开放政府的数据引导对数据的深度应用,但现在整体来说,在其它行业领域,还是谈概念比较多,真正实用的案例目前还比较少。
为什么现在传统的行业或者企业,没有把大数据真正研究自身的价值?这也是2013年去年嘎特纳对700多家企业做的调研,对传统企业来说应用大数据最主要的障碍是什么?最主要的障碍是不知道如何从大数据中获取价值。看我们最前面的探讨,实际上大数据中蕴含的价值和如何抽取其中的价值,这个理念还没有形成,大家还没有意识到,所以这也形成了最主要的障碍。
分析一下目前产业生态、产业结构的研究,其实对于什么是大数据的产业,什么是大数据的市场,这个市场跟我们之前所说的云计算市场区隔在哪里?现在大家并没有明确的区分或者看法。
因为这里面涉及到数据的产权界定,因为这些数据是来自于用户、来自于网络,这里可能包括用户的隐私,这是一个非常复杂的过程,后面我们还会讨论这些问题。
后面对大数据的发展政策做了一点思考,其实现在世界上很多国家在不断推动政府公共数据的开放,最早从美国,奥巴马上台之后他对信息产业的推动策略,从他的数据开放透明政策可以看出,在这方面是非常激进的。09年开始把政府的数据逐渐开放出来,现在已经有超过一千多个应用在上面使用。在之后,很多国家加入到了政府数据开放和所谓透明政府中来。
总结一下,这些国家的政府数据开放有三个特点:第一是统一门户,中国北京、广东也开始有统一门户数据开放开始出现。第二是机器可识别的数据接口。第三是多个部门参与。像美国有175个部门把数据放在里面共享。
其实,政府的策略不仅在于简单的数据开放,我们也可以看到政府在大数据技术发展方面所起到的作用。这里面举个例子,从2012年开始,美国投了2亿美元发展大数据战略,主要投入到了基础研究领域,大家可能对于Hadoop这种类型计算的模式都比较清楚,现在UC伯克利已经开发了一整套的解决方案,包括上层的内存处理计算模型,都是由UC伯克利提出来的,但NSSA有个要求要把它变成开源的平台,使得这个技术能够向产业间扩散。现在,大家都认为这个模式将来会替代Hadoop传统的计算模型,实际现在已经有很多企业支持这样的做法,包括国内的华为。
大数据的开放包括着一个很大的问题就是隐私保护,传统模式下有6个对隐私保护的基础原本,现在在安装应用的时候我就会告诉你我会收集什么信息,你是不是同意,但大数据的世界里原来的原则不再适用了,包括你怎么描绘一个人,怎么认定这是他的隐私数据,这是非常难的。包括描述你个人的信息,实际上现在腾讯给每个用户有5-6个标签去描述他,我们可以想像,对于自己的亲朋好友,我们说用20个词去形容他,这对大部分人来说都很困难。但是,腾讯用了几千个纬度描述一个人。就等于说,互联网比我们自己还了解我们自己。所以,2013年的时候世界经济论坛也发布了一个报告,要把个人数据里的价值释放出来,怎么释放?就是在于对隐私保护模式的改变,从收集环节的限制到使用环节进行限制。
可以在用户不知情的情况下收集数据,这可能是在大数据时代不可避免的。但问题是,在使用环节怎么限制数据的使用,怎么不去泄露用户的隐私,怎么不进行隐私数据的滥用,等等。
对我们国家来说,其实政府非常重视大数据的发展,在今年的政府工作报告里也多次提到大数据这样的关健词,把大数据跟集成电路、新能源等等,并列为引领未来发展的关键领域。
我们也对政府对大数据的定位总结了这三点:第一,大数据对环境的重大作用,包括隐私保护的法律环境,数据挖掘的制度设计。第二是大数据分析能力的建设。第三,政府在大数据里面,通过政府的数据开放和数据应用,这会使社会其它领域起到表率作用。
以上就是我演讲的主要内容,也非常希望跟大家分享我们的研究成果,谢谢大家!
以上内容根据现场速记整理。
(责任编辑:mengyishan)