邬贺铨:我们需要国家大数据战略

“不要被大数据(Big Data)的‘Big’误导,大数据更强调的不是数据大,而是数据挖掘。”在日前举行的第十届国家信息化专家论坛上,中国工程院院士、中国互联网协会理事长邬贺铨指出,大数据需要更强调数据挖掘利用,而针对目前存在的技术应用、人才、安全隐私等问题,最关键的是要有国家大数据战略,使其成为转变经济增长方式的有效抓手。

大数据的价值好似沙里淘金

NBA从上世纪80年代开始将球员在赛场上的表现数据化,经过30多年的积累已经达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部已有半数聘请了数据分析师,他们的平均胜率达到59.3%,而没有进行数据分析的球队仅有平均40.7%的胜率。这就是大数据的价值体现。

大数据的价值究竟从何而来?邬贺铨认为,数据大与价值大未必成正比。例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。大数据的价值在于样本数的普遍性。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。大数据往往是低价值密度。大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。

微软的研究发现,Facebook 90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB。北京公交一卡通乘客每天刷卡4000万次、地铁1000万人次,每天累计的数据是MB级,一年下来也不到TB级,充其量只是中数据,但对这一数据量的挖掘显然就能得出北京人群使用公交的出行规律,对于优化北京公交线路的设置有足够的价值。因此邬贺铨指出,事实上小数据也值得重视,对未到TB级规模的数据的挖掘也有价值。

网络的数据并非都可信

Google的流感指数在2008年H7N1流感爆发时给出的预测比美国疾控中心早两周发布,与其数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索因为,导致Google的流感指数估值出现了假阳性,远高于疾控中心的统计数值。在谷歌流感指数的启

发下,纽约罗切斯特大学利用Twitter的数据进行了尝试,可以提前8天预报流感对人体的侵袭状况,而且准确率高达90%,不过Twitter的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于Twitter的微博判断流感有片面性。

邬贺铨由此指出,网络的数据并非都可信。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。过去往往认为“有图有真相”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已经屡见不鲜。鉴于“谣言转发500次就是传谣”,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过499次,从舆情收集效果看,人为的截尾导致失去真实性。

他也指出,传感器收集的数据并非都是可信的,特别是历史上该传感器的数据与同类的其他传感器报出的数据差异很大时,该数据就应弃用。既然数据会有重复而且并非都是全部有用的,因此需要进行数据过滤,这对简化存储和提高可信性都是有意义的。还可以利用异构多源数据来提高可信性,收集多源异构的数据有利于对数据的理解。例如通过城市交通监控系统可以实时掌握交通流量,如果加上政府数据和网络数据,就可能知道发生交通拥堵的原因。

要重视数据的挖掘利用

大数据的挖掘深化了信息技术的应用,催生新的应用和新业态出现,大数据提升了管理和决策的智能化水平,邬贺铨提出要重视数据的挖掘利用,不仅是大数据,中小数据的挖掘也有意义。

大数据的量越大处理难度越大,但仅仅是需要更多的服务器或者说需要更高速的服务器。邬贺铨认为,大数据的主要挑战是实时性数据变化快。对于静态的数据,可以将数据带进程序来处理,但对于动态的数据,需要带程序进数据。大数据更大的挑战是品种多,特别是非结构化。对于结构化数据可以使用关系数据库技术来处理,对于非结构化数据则要用NoSQL来处理。针对结构化数据的虚拟存储平台采用了动态分层技术,根据数据被调用的频率,自动将常用的数据搬到最高层。针对非结构化数据使用内容归档平台,把结构化和非结构化数据集成到一个单一的动态归档架构中,设计一套软件和元数据库规则,通过给数据加标签的方式,建立不同维度,从而具有模糊查询功能。

邬贺铨指出,“大”仅仅是大数据的特征之一,大数据包括ABC三个要素:大分析(Analytic)、高带宽(Bandwidth)、大内容(Content)。实时性是大数据挖掘的挑战,而非结构化是大数据挖掘的主要挑战。目前国际上大数据处理技术主要还是结构性数据,据说大数据中80%以上都是非结构性数据。2012年斯坦福大学与Google合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率仅达到15.8%。可见非结构性数据的挖掘技术到实用还有相当距离。目前国内外都有很多大数据应用成功例子,但基本上还是结构性数据,对结构性数据的挖掘是大数据应用的切入点。

大数据的挑战最终是战略问题

邬贺铨指出,当前大数据面临的问题主要表现在技术和应用、人才、安全隐私、发展战略等方面。

首先是技术和应用问题。中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到364EB,其中55%(200EB)的数据需要一定程度的保护,然而目前只有不到一半(44%,即96EB)的数据得到保护。我国在自主可控的大数据分析技术与产品方面与发达国家相比有不少差距。国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据方面已经远远落后于国外先进企业。

其次是人才问题。500年前达·芬奇可以同时是画家、音乐家、工程师、科学家,100年前的医生可以了解医学领域的所有分支,今天一名初级医生必须同时了解大约一万种疾病和综合征、3000种药物和1100种检验方法。估计一个专业的医生也需要每天学习21小时才能跟得上学科的发展。Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位,麦肯锡公司预计美国到2018年深度数据分析人才缺口达14万~19万人,还需要数据需求和技术及应用的管理者150万人。中国能理解与应用大数据的创新人才更是稀缺资源。

然后是安全与隐私问题。大数据的利用首先要求政府数据原则上该公开的必须公开。大数据的挖掘与利用需要有法可依。我国需要尽快制定“信息保护法”和“信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。安全与隐私保护的隐患仍大量存在,重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。

最后是发展战略问题。信息化要从重视硬件到重视软件,再到重视数据的利用,不仅大数据,中小数据的挖掘也有意义。需要制定国家大数据发展战略,大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越发展的机会,但切忌一哄而起在目的不明情况下到处建设大数据中心,到处搞“数据房地产”,而是需要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手。

(责任编辑:蒙遗善)

时间: 2024-12-30 19:52:17

邬贺铨:我们需要国家大数据战略的相关文章

中国工程院院士邬贺铨谈物联网与大数据

第一是物联感知 物联网通过感知帮助我们进行决策.ITU的物联网定义是物理和虚拟的,我们过去理解物联网都认为物联网对象一定是物理的,实际上ITU认为虚拟也是物联网对象,其中虚拟物件是指什么,是指存储处理结构内容,利用多媒体内容和应用软件,物联网提供满足安全要求,物联网中的实物和虚拟相联合的. 实物有类,一是身份识别,比如说条码,还有非身份识别类,需要识别,你可以ID进去,对这个物体我们不是靠ID识别,是需要物体的实体体征和属性. 物联网所需要感受的物件对象范围非常之宽,物联网收集数据,我们刚刚说虚

大数据2014年面临几道关 急需“国家大数据战略”宏观统筹

大数据从"概念"走向"价值",基于大数据的推荐与预测逐步流行,数据科学将兴起,安全与隐私成为重要问题,大数据产业成为战略性产业--这是中国计算机学会大数据专家委员会对"大数据"2014年十大趋势预测中的内容.在这份预测中,还包括数据商品化与数据共享联盟化,大数据生态环境逐步发展等.同时,大数据专家委员会预测,2014年,互联网和电子商务.金融(股市预测.金融分析).健康医疗(流行病监控和预测等),生物信息.制药等方面将会有令人瞩目的应用.刚刚过去

院士观点:我们需要国家大数据战略

 "不要被大数据(Big Data)的'Big'误导,大数据更强调的不是数据大,而是数据挖掘."在日前举行的第十届国家信息化专家论坛上,中国工程院院士.中国互联网协会理事长邬贺铨指出,大数据需要更强调数据挖掘利用,而针对目前存在的技术应用.人才.安全隐私等问题,最关键的是要有国家大数据战略,使其成为转变经济增长方式的有效抓手. 大数据的价值好似沙里淘金 NBA从上世纪80年代开始将球员在赛场上的表现数据化,经过30多年的积累已经达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安

十八届五中全会:实行互联网+计划 实施国家大数据战略

刚刚闭幕的五中全会强调要实施网络强国战略实施大数据战略 "互联网+"计划,那么什么是互联网+计划?互联网+计划是腾讯CEO马化腾今年向人大提出的四个建议之一. 五中全会强调,拓展发展新空间,形成沿海沿江沿线经济带为主的纵向横向经济轴带,培育壮大若干重点经济区,实施网络强国战略,实施"互联网+"行动计划,发展分享经济,实施国家大数据战略. 全会强调,实现"十三五"时期发展目标,破解发展难题,厚植发展优势,必须牢固树立并切实贯彻创新.协调.绿色.开放

加快实施国家大数据战略

大数据已成为科技.经济.社会等各领域的关注焦点.十八届五中全会提出,实施国家大数据战略.2015年全国"两会"提出,要"积极推进大数据发展",2015年8月国务院通过<关于促进大数据发展行动纲要>,部署三个任务,一要政府数据开放共享,二要培育新兴业态,助力经济转型,三要强化安全保障."十三五"期间,青岛市如何落实国家大数据战略,如何有所作为,值得我们深入思考. 一.国内外重视大数据发展 发达国家认识到大数据的重要意义,纷纷将开发运用大

孙志刚:贯彻国家大数据战略 推动实现中国“强芯梦”

1月17日,贵州省人民政府与美国高通公司战略合作协议签字仪式在北京国家会议中心举行.贵州省委副书记.代省长孙志刚出席会议并在现场致辞. 以下是贵州省委副书记.代省长孙志刚的发言内容: 尊敬的徐绍史主任.怀进鹏部长.张亚平院长,尊敬的史蒂夫 莫伦科夫首席执行官.德里克 阿博利总裁,各位领导.各位来宾,女士们.先生们,朋友们: 大家下午好! 今天,我们相聚北京国家会议中心,共同见证贵州省人民政府与美国高通公司签署战略合作协议,共同见证贵州华芯通半导体技术有限公司.高通投资(贵州)有限公司揭牌成立,这

“十三五”规划纲要:实施国家大数据战略

中华人民共和国国民经济和社会发展第十三个五年规划纲要今日发布."十三五"规划纲要中指出,实施国家大数据战略.把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新. 全面推进重点领域大数据高效采集.有效整合,深化政府数据和社会数据关联分析.融合利用,提高宏观调控.市场监管.社会治理和公共服务精准性和有效性.依托政府数据统一共享交换平台,加快推进跨部门数据资源共享共用.加快建设国家政府数据统一开放平台,推动政府信息系统和

代表委员眼中的国家大数据战略:融入生活 改变产业

不知不觉间,大数据对于普通百姓来说,早已不是冷冰冰的概念,它已经融入我们的生活,并且将改变我们的生活和工作. "十三五"规划纲要草案中提出,实施国家大数据战略,加快政府数据开放共享.政策力挺.互联网企业积极布局,大数据产业值得期待,大数据生活令人憧憬. 大数据迎来大时代 中国信息通信研究院发布的<2015年中国大数据发展调查报告>显示,2015年我国大数据市场规模达到115.9亿元,增速达38%. 12个办事大厅700多个窗口,宁夏银川市基于大数据平台的新市民大厅运行半年即

中国工程院院士邬贺铨:5G更大的发展在于产业应用

有人说,4G改变了我们的生活,而5G会改变社会.那么已经在路上的5G,究竟会给社会带来哪些实质性改变? 对此,中国工程院院士邬贺铨表示,移动通信的发展从1G到4G都是面向个人的通信,但5G不仅带来更宽的带宽.更高的速率,5G更大的发展在于它所定位的应用场景.产业应用和大量未知的应用创新. 对于5G的应用场景,邬贺铨指出,主要定位于以下两类: 一是低时延.高可靠.主要面向的应用目标是高铁,未来要保证500公里时速下流畅的通信.另外是实现车联网,将来利用5G帮助我们避免高速公路上的交通事故.此外,现