工信部高微:大数据产业正围绕数据形成新的生态

8月19-20日,由工业和信息化部批准,中国通信学会主办,中国电信、中国移动、中国联通协办,信通创展承办的2014中国国际大数据大会在京成功召开。下面是工信部电信研究院高巍在“联合变革 开放创新”分会场的演讲。

高巍:

今天演讲的主题是《大数据产业进展和发展策略的思考》,我们研究院2012年开始在大数据方面进行了持续的研究,今天我也希望借这个机会分享一下我们的研究成果和想法。

今天的演讲一共是这么三个部分:一个是大数据发展的脉搏,第二个是我们目前所看到的大数据技术、产业和应用发展的进展,第三点是大数据发展政策及思考。

首先,简单看一下所谓大数据的起源和断代。自从人类有了文明之后就开始有了数据,当然大数据也是随着人们文明不断的演化。我们现在所说的大数据,当然是从计算机计算技术出现之后,才出现的概念。

从50年代开始计算机技术得以发展,至今我们是以处理结构化数据的脉络,一直到90年代提出数据仓储、数据挖掘、BI的概念,实际还是沿着结构化数据的脉络。我们说,99-00年左右,互联网的爆发增长体现出了现在的态势,一个是数据量的增大,99-00年web网页的数量达到了40亿,达到了TD级的数据。另外,web出现之后,给互联网带来了富媒体的内容,带来了更多的数据。

我们觉得,除了这些基本的特性之外,我们还需要从一些理念的高度去理解大数据,现在的信息社会,信息当中蕴含着很多价值,像金矿一样,我们原来没有手段和工具去挖掘,而现在要长期这样的工具。原来我们依靠单机的数据库方式,可能并不是非常好的工具,而现在有自动的智能深度分析,这样的工具出现,使我们逐渐有了能力挖掘大数据。

我们如何看待数据本身?传统的方式,可能大家在很多场合也提到,传统的方式是抽样,但现在由于工具的改变,技术的提升,我们可以以全级的方式分析数据,同时我们分析的时候是寻找数据的相关关系,就是我们对待数据的理念上产生了变化。

下面,简单分享一下我们对大数据技术应用的看法。

从数据的技术角度,大致就这三个层面:第一个是预处理,数据的抽取、数据的转换、数据的加载。第二个是数据经过预处理之后进行存储、计算、分析的过程,这是数据价值战斗的过程。第三个是数据的可视化,我们如何把数据转换成大众易于理解、易于形成决策的方式,类似我们在春节的时候新闻中不断在放百度对春运的大数据。

现在的大数据处理跟传统的数据处理还是同样这三个环节,只不过因为现在一是数据量的爆发,第二是非结构化数据的引入,第三是对处理需求的出现,使得不同环节在技术上面对不同的挑战。

首先主要的挑战在于不是结构化数据,而是来自于不同的数据源,或者多模态的数据,这些数据是非结构化数据的,如何进行统一的关键数据抽取,这是现在面临的一个挑战。另外是数据的存储,现在互联网数据以PB级计算,如果还是用传统的存储方式,包括IO性能和成本上都没办法承载。所以,现在提出了低成本基于分布式的数据架构。

同时,这种计算的场景,我们最初在搜索引擎这个时代,其实它并不要求数据处理的实时化,它采用的是批处理的方式,我把结果处理出来之后可以提供给他使用。但是,现在在线的应用,需要实时的数据处理,甚至还需要对其它不同结构的,包括以图结构来呈现的数据处理,原来以数据批处理的方式已经不再适用了,现在出现类似于像sdop(音)流式实时处理的架构。

原来结构化数据的分析,更多是用原有模型进行分析和处理,但是现在我们面对着大量的非结构化数据,可能鲜艳的知识模型没有办法应对现在这种新的不断变化的数据。那么怎么办?所以现在出现基于自动化的继续学习,使整个数据的分析过程,完全实现自动化,不需要人工干预。

最后就是数据的可视化,如何能够实现直观的用户可以理解的结果,这是由于数据产生的方式,数据本身形态的变化,使得大数据技术不断进展。从技术本身来看,我们认为大数据技术的发展和创新,呈现这样三个阶梯的状态,从原创技术到开源社区,到最后的产品。其实,对应到我们产业界,对应着不同的企业群体,跟大家现在所看到的,这个数据分析的基础是Google04年通过几篇论文提出来的。实际上,Google在2000年之前已经拥有这些技术,三四年之后他通过学术论文的方式把这种技术和思想公开出来,当然由这个技术公开之后形成开源社区的版本,可能又过了3-4年的时间。所以说,从原创到最后的开源,中间会有5-6年的时间差。

目前大多数的企业,是沿着开源的方向走,在开源里汲取营养。但还有其它一些公司,他希望把开源社区的版本变成商品,变成一种可以实现企业级应用的产品,这在开源领域又之后3-4年。其实,也就是从互联网领先的企业到互联网的领域,到社会的其它领域,其实呈现出了这三个不同的发展阶段。

刚才一直提到互联网,实际上互联网行业确实是目前大数据应用的领跑者,因为从最初互联网应对自身的数据分析处理的需要,到现在互联网已经基于大数据的分析衍生出很多能够产生商业价值的商业模式,包括基于可穿戴设备的数据处理,包括现在大家炒的很热的像阿里小额贷款,基于阿里商户几年之间积累的信用数据,来给这些商户发放小额贷款,这比原来传统金融征信的方式,其实有了很大的精准性和可靠性,成本有大幅下降。我们看,到今年年初,阿里小贷已经贷出了700多亿的规模,不良率是低于1%的,这对于传统的金融来说是非常好的水平。

而像腾讯、百度,也有类似的产品和服务。当然,这其实都是针对自身的在淘宝上的商户,百度是针对他的广告用户。当然,最近几年RTD,这种精准的广告方式的出现,RTD目前在国内量还比较小,目前也就是3-4%的互联网广告份额,但在美国现在已经占到了20%左右。RTD不是卖传统的广告位,而是由广告商掌握用户的数据,知道他所有用户的喜好偏好,所以给他自己的广告用户提供非常精准的定制化广告服务,我就把这个产品推送到给你最希望看到这个广告人的面前,这就使广告价值得到了大大提升,广告主可以根据广告的质量来进行定价,来进行这样的广告投放,这样就大大提高了广告的精准率。

现在有很多商业模式都进行了大数据的分析,包括学习也在改变,不是原来灌输式的强制性的告诉你要学什么东西,而是根据喜好我要学什么东西,这些都在慢慢改变。

另外,刚才提到了互联网,从互联网加速向传统领域拓展,互联网公司大部分是技术公司,这对传统行业来说,IT只是他业务边缘的一个部门。我们虽然看到现在大数据的应用在慢慢拓展,包括智慧政府,现在可以看到各国在逐渐开放政府的数据引导对数据的深度应用,但现在整体来说,在其它行业领域,还是谈概念比较多,真正实用的案例目前还比较少。

为什么现在传统的行业或者企业,没有把大数据真正研究自身的价值?这也是2013年去年嘎特纳对700多家企业做的调研,对传统企业来说应用大数据最主要的障碍是什么?最主要的障碍是不知道如何从大数据中获取价值。看我们最前面的探讨,实际上大数据中蕴含的价值和如何抽取其中的价值,这个理念还没有形成,大家还没有意识到,所以这也形成了最主要的障碍。

分析一下目前产业生态、产业结构的研究,其实对于什么是大数据的产业,什么是大数据的市场,这个市场跟我们之前所说的云计算市场区隔在哪里?现在大家并没有明确的区分或者看法。

因为这里面涉及到数据的产权界定,因为这些数据是来自于用户、来自于网络,这里可能包括用户的隐私,这是一个非常复杂的过程,后面我们还会讨论这些问题。

后面对大数据的发展政策做了一点思考,其实现在世界上很多国家在不断推动政府公共数据的开放,最早从美国,奥巴马上台之后他对信息产业的推动策略,从他的数据开放透明政策可以看出,在这方面是非常激进的。09年开始把政府的数据逐渐开放出来,现在已经有超过一千多个应用在上面使用。在之后,很多国家加入到了政府数据开放和所谓透明政府中来。

总结一下,这些国家的政府数据开放有三个特点:第一是统一门户,中国北京、广东也开始有统一门户数据开放开始出现。第二是机器可识别的数据接口。第三是多个部门参与。像美国有175个部门把数据放在里面共享。

其实,政府的策略不仅在于简单的数据开放,我们也可以看到政府在大数据技术发展方面所起到的作用。这里面举个例子,从2012年开始,美国投了2亿美元发展大数据战略,主要投入到了基础研究领域,大家可能对于Hadoop这种类型计算的模式都比较清楚,现在UC伯克利已经开发了一整套的解决方案,包括上层的内存处理计算模型,都是由UC伯克利提出来的,但NSSA有个要求要把它变成开源的平台,使得这个技术能够向产业间扩散。现在,大家都认为这个模式将来会替代Hadoop传统的计算模型,实际现在已经有很多企业支持这样的做法,包括国内的华为。

大数据的开放包括着一个很大的问题就是隐私保护,传统模式下有6个对隐私保护的基础原本,现在在安装应用的时候我就会告诉你我会收集什么信息,你是不是同意,但大数据的世界里原来的原则不再适用了,包括你怎么描绘一个人,怎么认定这是他的隐私数据,这是非常难的。包括描述你个人的信息,实际上现在腾讯给每个用户有5-6个标签去描述他,我们可以想像,对于自己的亲朋好友,我们说用20个词去形容他,这对大部分人来说都很困难。但是,腾讯用了几千个纬度描述一个人。就等于说,互联网比我们自己还了解我们自己。所以,2013年的时候世界经济论坛也发布了一个报告,要把个人数据里的价值释放出来,怎么释放?就是在于对隐私保护模式的改变,从收集环节的限制到使用环节进行限制。

可以在用户不知情的情况下收集数据,这可能是在大数据时代不可避免的。但问题是,在使用环节怎么限制数据的使用,怎么不去泄露用户的隐私,怎么不进行隐私数据的滥用,等等。

对我们国家来说,其实政府非常重视大数据的发展,在今年的政府工作报告里也多次提到大数据这样的关健词,把大数据跟集成电路、新能源等等,并列为引领未来发展的关键领域。

我们也对政府对大数据的定位总结了这三点:第一,大数据对环境的重大作用,包括隐私保护的法律环境,数据挖掘的制度设计。第二是大数据分析能力的建设。第三,政府在大数据里面,通过政府的数据开放和数据应用,这会使社会其它领域起到表率作用。

以上就是我演讲的主要内容,也非常希望跟大家分享我们的研究成果,谢谢大家!

以上内容根据现场速记整理。

(责任编辑:mengyishan)

时间: 2024-09-14 13:53:34

工信部高微:大数据产业正围绕数据形成新的生态的相关文章

互联网时代下,数据产业正成为一种新的生意

10月21日报道,不久前,惠普有意以100亿美元的价格出售旗下软件部门,逐步将发展中心向网络.存储及数据中心相关技术服务转移.虽然惠普的软件业务去年营收仅有36亿美金,这个消息还是震动了整个IT界. 惠普并非第一间这样做的大型高科技企业.今年六月,戴尔也卖出了旗下的软件部门.在出售软件部门之前,戴尔大手笔的收购了存储行业的龙头企业EMC,大举进军数据存储及数据中心业务. 数据,正带来无数的全新市场机遇,并随之对业界乃至社会产生深重的影响.而中国作为数据中心市场发展最快的地区之一,是否能领跑全新数

大数据产业正走出“深闺”,为生活带来“质”的变化

大数据将是企业做法的关键因素,无论企业是在线注册的办公地址还是实体公司.它将帮助企业解读所有的信息,以帮助预测企业的营销趋势.以下探索一下2017年大数据可用于向千禧一代推广的许多方式. 在大数据帮助下,异地专家可对病情进行实时分析和精确诊断;晃晃智能手环,街道两侧商铺信息全部展现,购物变得更加轻松."随着大数据应用普及,这样的智能生活将随处可见."体验中心一名工作人员说. 你的生活是由什么连接,一段段日子,还是一个个朋友?未来,沟通你我的还有一个个数据.随着科技进步与应用,大数据产业

大数据产业正处在蓬勃发展的孕育期与机遇期

当前,大数据已成为继物联网.云计算之后的信息技术产业中最受关注的热点领域之一.随着大数据从概念渗透转向应用发展,大数据产业正处在蓬勃发展的孕育期与机遇期.大数据技术将在开源环境下不断提升,大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,大数据产业生态也将得到不断完善. 大数据产业 将成为引领信息技术产业发展的核心引擎,推动社会进步的重要力量. 1.开源成为技术创新主要模式 经过多年来的高速发展,大数据相关的数据采集.存储.分析.可视化等多

大数据产业飞速发展 成为经济发展新动能

 据中国之声<新闻和报纸摘要>报道,随着大数据战略正式上升为国家战略,以大数据为代表的信息经济,促进了传统产业升级和国民经济其他领域的飞速发展,成为经济发展的新动能. 去年,上海市首次开放了总容量达上千GB的交通大数据,来自上海交通大学的团队,选取了一卡通乘客的刷卡数据,为改善城市交通和便民出行征集方案. 团队成员张亚飞:比如说今天有多少人从莘庄刷卡进,从人民广场出,这样一进一出,在网络科学中就是一个入度和出度的问题,在这个图上,我们就可以进行运算. 经过分析,传统新能源汽车租赁布局存在着冷热

美国大数据产业地图和数据科学家必备工具-数据源

数据专家不能只生活在R语言或Excel表格里.他们需要工具来获得质量拔尖且可用于预测分析的数据.其实我觉得这正是统计学家和数据专家的区别所在.在我看来,统计学家 使用数据进行回归分析.而 数据专家 需要切实获取数据.进行回归分析.沟通结果.展示模式,并超越所在机构当时的局限,立足于制高点带领大家寻求切实可行的突破发展.鉴于他们需要统筹整个数据通道,我希望这个数据生态系统可以罗列出数据专家门常用的重要工具和使用方法,以及工具之间的交互联系. 第一部分:数据源 数据是整个数据生态系统的源头.总的来说

工信部:大数据产业发展规划 (2016-2020年)

ZD至顶网CIO与应用频道 01月17日 北京消息: 17日,工信部印发<大数据产业发展规划(2016-2020年)>,规划提出,数据是国家基础性战略资源,是21世纪的"钻石矿".党中央.国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出"实施国家大数据战略",国务院印发<促进大数据发展行动纲要>,全面推进大数据发展,加快建设数据强国."十三五"时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键

大数据产业:完善生态链进入关键期

大数据产业未来固然可期,但是在实际发展路径上,各地政府纷纷上马数据中心项目,以扶持大数据产业,此种过热的推进方法也让很多专家表示担忧.作为一个新兴的产业,其发展必然需要一个完整.健康的生态体系作为支撑. "2015年最核心的数据服务产业规模高达124.9亿元,扩展的基础支撑产业规模高达696.7亿元.预计2016年大数据核心数据服务产业规模会超过200亿元,基础支撑产业规模将高达1300亿元."8月2日,中国电子信息产业发展研究院副院长樊会文代表中国电子信息产业发展研究院发布<2

我国大数据产业核心集聚区隐现

国家发改委.工信部.中央网信办.科技部.商务部等部门领导,三大运营企业.华为.中兴.阿里巴巴.腾讯.曙光.浪潮等信息通信企业巨头集体亮相北京国家会议中心,出席高规格的内蒙古大数据产业推介会.内蒙古自治区党委书记李纪恒笃定地说:"发展大数据.云计算,众里寻他千百度,蓦然回首,最佳就在内蒙古!"工信部副部长怀进鹏热情洋溢地指出,大数据在不同产业和细分领域都出现重要的市场机遇,要把握信息通信产业创新加速转型时机,实现大数据产业的创新突破. 仅仅一个月前,国家发展改革委.工信部.中央网信办共同

大数据产业未来方向何在?业内人士给出10个“数据观”

从2013年"炒作"期逐步落入2016年的成长期,我国大数据产业正经历着前所未有的蜕变. 2016年,是我国大数据产业市场规模明显增长.技术创新与应用创新特征凸显.地方政府结合需求推动顶层设计.行业应用成为新热点的一年. 16年底,工信部正式印发<大数据产业发展规划(2016-2020年)>,规划目标到2020年,大数据相关产品和服务业务收入突破1万亿元;建设10-15个大数据综合试验区,创建一批大数据产业集聚区,形成若干大数据新型工业化产业示范基地.规划的提出为我国大数据