大数据的应用难题:是否该建立数据公地

文章讲的是大数据的应用难题:是否该建立数据公地

  【IT168评论】要想考察大数据最好同时考察大数据背后的技术、商业和社会维度。从发展成熟度来看,技术维度走的最远、商业维度有所发展但不算全面成熟,社会维度发展最差。所以虽然已经谈了很久大数据,但除了孕育出大数据自身的几个领域比如搜索等,其它领域却并没有从大数据中获得可见的收益。大多时候人们还是处在觉得这里肯定有金子,但需要更多的耐心的状态。这篇文章则尝试对大数据本身的特征做点挖掘,对未来的发展趋势做点预测。

  大数据上的深度和广度

  如果把大数据对应到海量的数据,那它就是非常含糊的概念,相当于变成信息的同义词,显然也就很难回答信息到底能干什么这样的问题。

  这时候为了推进思考通常需要先分类。如果把时间空间作为最基本的视角,那首先要区分的就是大数据的深度和广度。从时间的角度看大数据是完整的历史,从空间的角度看大数据是全球活动的痕迹。前者可以看成一种深度,后者可以看成一种广度,不同的场景对深度和广度的侧重有所不同。

  对于有些垂直的行业,比如医疗,大数据的深度更重要,所有的历史都可以在数据上得到找到之后,人们就可以更好的认知并优化相应的行业。

  对社会而言,很多时候广度则更重要,具体到某个场景我们只有一鳞半爪的消息,但当这种信息足够多,范围足够广,就有可能描述出相对及时的全貌。经常举的Google预测传染病的例子依赖的就是这种广度。

  这点决定了大数据的应用发展趋势,在深度重要的地方,公司这类组织需要成为主体,困难是如何跨越数据所有权的边界。对于医院而言,显然把所有治疗案例数据化并共享是有好处的,但如果只有一个医院这么做,那对这一家医院而言更多的可能是隐私上反弹所带来的坏处。

  在广度重要的地方,虽然在搜索这样的领域里公司也可以受益,但真正可以从大数据全面受益的机构其实是政府。数据越广,其所描述的主体就越大,而如果描述的是整个社会,那显然应该是社会的主要责任人会从中受益。这是个常识问题,就和看病的时候不会吃了医生给别人开的药自己反倒好了差不多。有的时候央视会播放百度做的春节期间人员流动图,这件事情也正好可以从侧面说明这问题。这种人员流动地图对能做出地图的人公司帮助远没有对政府的帮助大。

  简单总结下就是:深度和广度两个方向对数据的要求不同,前者需要更为详尽、有质量的数据源;后者则对此要求不高,但两者在应用的时候都会面临付出回报不对等问题。大数据倾向于描述整体,而有能力收集或处理大数据的往往是个体,个体的回报在整体的提升中并不容易获得清晰体现。

  所以说现在大数据发展的瓶颈不是技术,而是背后所需要的分配关系的建立。这种关系理不顺,数据就会停留在孤岛层面,每个组织都有自己的东西,并把它命名为“大数据”。而为了理顺这种关系则要回到一个非常经典的问题,“公地”到底可不可以建立。

  数据公地的设想

  大数据其实有点像公地,在经济学里非常出名的一个论点是公地悲剧。《美国经济史》举了一个非常易懂的例子来说什么是公地悲剧:

  ...这些经济推理命题有利于解释集体所有制和产出的共享(平分或固定份额)如何导致“免费搭车者”问题。为了说明这一点,考虑共享土地所有权,且共同生产了100蒲式耳玉米的10个工人,平均每人消费10蒲式耳玉米。假设一个工人开始偷懒并将其劳动努力减半,从而导致产出减少5蒲式耳。由于产出共享制度的安排,偷懒者的消费量和其它工人一样,现在都是9.5蒲式耳。尽管他的努力已经下降了50%,但他的消费量只下降了5%。偷懒者是在搭他人劳动的便车...

  这背后有非常深刻的人性问题,即使我们可以通过努力协作创造更多的财富,个人也可以从中分享更多,但在群体里明显的个人倾向则是自己工作更少但分享更多。这与囚徒困境其实是相通的。

  基于实物的世界里眼下看不到彻底解决这问题的方法,只能依赖于某种被大家基本认可的分配秩序,比如:以前的血统现在的物竞天择,但基于比特的数字财富眼下看却有解决这问题的可能。

  基于比特的数据与实物最大的区别是数据并非是你拿走我就没有的东西,并且硬件的价格在飞速下降,开源又使数据的访问工具基本免费。这几者叠加在一起,使数据公地成为可能。

  这里面很有意思的问题是如果大家更在意我拿到的东西是不是绝对值变大了那数据公地的形成可能性就大些,因为如果存在数据公地,那每个人(企业)一定收获更多,但如果大家更在意我是不是比你多,那数据公地的建设就会多很多障碍,因为公地其实是让相关人员站到同样的竞争起点上。

  大数据的问题,在数据的使用上是技术问题,但在数据源上其实是社会经济问题,后者更难,所以大数据应用的发展不取决于技术的发展而取决于社会经济方式的变革速度。在有限的领域里,比如搜索、电商、云计算,技术已经得到比较充分的发展,眼下来看谁付出谁受益的问题是把小数据变成大数据过程中最主要的问题。

  大数据的路往那里走?

  数据的内在发展动力是数据越全价值越大,其实这也是一种网络效应,这种内在动力导致宏观来看数据所有权的发展只有两种趋势:

  一种是像现在移动端一样,每个人都有自己的私有数据源,接下来开始你死我活的竞争,最终有一家活下来,这也可以达成数据统一的终极目标。

  另一种则是在竞争中开始联合,建设上面所说的数据公地。

  如前所述行业数据和全社会的数据性质上差别很大所以要分开来探讨。

  对于行业数据而言,竞争对手间彼此的坦诚合作除非有极为特别的人物出现,否则是不太可能的。这种情况下最简单的办法是引入第三方。

  比如说每家运营商都握有几乎所有网民的行动数据,但要想让运营商彼此间开诚布公的合作把这些数据整合在一起创造某种价值,这就很难。这时候如果有第三方介入,制定好利益分配方案那就是可能的。

  如果这点可以达成,那唯一的关键点就是相应的商业模式是不是可以超越数据处理的成本。这点必须强调下的是,大数据的价值密度是很稀疏的,很多东西有价值但并不一定值得做,视频网站之所以赚不到钱一个关键原因就是带宽和存储的成本比较高,而对大数据而言商业模式找不好,情形可能比视频网站还差。挖矿的成本怎么也要小于挖矿所得挖矿才有价值。

  上述问题在行业数据里可能问题还不是太大,一般来讲行业数据的价值密度终究会大一些,并且因为相对比较垂直,总量终究有限制。所以大数据的行业应用比较容易发展。

  但对社会性的数据,这在很多时候就是个问题。我们都知道样本的全面性比数据的多少更有价值,但是如果多是确保样本全面性的唯一手段的话,那就意味必须有全的数据做一件事情才有意义。

  社会化的数据有两种应用方向,一种就是企业可以搞定的比如Google,一种则是属于社会层面,很难单独属于某个企业的比如智慧城市相关的人的活动数据。后者则需要上面所说的数据公地来做支撑。

  从数据的视角来看,现在有两种数据存放形式:一种是Google这样的企业拥有整个社会某个横截面上的全部数据,这应该是种特例,并且数据会局限在公开信息;一种则是被割裂的各种与人行为相关的数据,比如购物相关的在电商,与人相关的在社交网络和IM,线下服务相关的则在O2O企业,铁路相关的在12306等。Google这种拥有全的数据,但并不拥有人的行为,所以说Google这种企业相当于拥有整个社会的一个横截面的数据。而所有其它企业则只拥有某个垂直领域的数据。

  如果依赖于企业做这种数据统一的尝试,在前者就会有投资200亿做O2O类的举动,因为这会补全数据,在后者就会有做电商的想做社交,做社交的想做电商这类事发生。类似的故事还可以在终端上发生,所有这些行为的终极目标都是一家企业搞定所有这些事情,但这是不可能的,这种不可能还不单是经济原因。而数据不能打通,那就只能在割裂的数据上做自以为是大数据的大数据。

  所以说这骨子里是数据公地究竟能不能建立的问题,而要想建立数据公地,那至少要解决谁来做的问题,对此开源给出的启示有两点非常关键:第一这不能是个盈利组织;第二这要能获得众多企业的支持。因为数据会牵涉隐私,所以同开源相比那就一定还要有比较清晰的界定数据使用的规则。

  小结

  在有一种切实的办法解决数据所有和使用权之前,大数据的应用应该还都是局部的。因为它的深度应用牵涉社会很多部分的彼此协调,所以这个过程可能是非常漫长的。这里面有意思的事情是,大数据的出现直接推动了机器智能的发展,而机器智能产生影响的速度可能会远快于大数据本身。

作者:李智勇

来源:IT168

原文链接:大数据的应用难题:是否该建立数据公地

时间: 2024-09-21 02:44:42

大数据的应用难题:是否该建立数据公地的相关文章

大数据征信如何为一个人建立数据肖像?| 硬创公开课

"凡走过必留下痕迹",大数据时代,你的一举一动都在为你建立一个电子档案,从你有多少张信用卡.每个月消费多少.还款记录如何到你喜欢浏览什么网站.手机是什么型号甚至IP地址对应的位置,有一万多个词条可以刻画你的肖像,银行在不需要跟你打交道的情况下可以靠这种数据肖像决定要不要给你放款.放多少合适.这就是大数据征信. 每个人每天会产生无数的信息,征信机构如何从这里面抽丝剥茧找到有效的数据,又如何给每个数据设置合理的权重去建立模型?机器出现故障之后又如何修正?我们请到了在征信上有多年经验的嘉宾.

如何建立数据分析中心

随着大数据的风靡,越来越多的专家.企业开始逐渐认同数据分析将在未来成为管理支持的重要依据.但企业建立数据分析系统并不是一件容易的事,在建设过程中会遇到各种特殊而难以量化的需求,尤其是对于集团化的公司.为此,这里分享湖南梦洁家纺CIO杨昊在帆软大数据巡展上分享的关于建立数据分析中心的演讲,希望能给同行的读者有所启发. 两大痛点阻碍数据化管理 对于企业的数据管理,以梦洁家纺为例,存在的第一大痛点–各组的数据加起来远超五百个字段,这样的字段对于集团化的公司来讲很容易引起冲突.例如,某集团化的重型制造业

阿里大数据野心:建立数据地图 未来谨慎开放

阿里集团董事局主席马云提出的"平台.金融.数据"三步走战略正逐渐清晰起来.继阿里集团架构调整.组建小微金融服务集团之后,阿里大数据的神秘面纱也在一步步揭开. 4月11日,阿里举办媒体开放日,淘宝网商业智能部首席商业智能官车品觉首次向外披露阿里大数据进展. 车品觉认为,未来,数据将成为公司的核心竞争力.阿里集团数据的优势在于,用户从搜索到浏览.支付,形成深度的交易链条,其中每一个节点都将产生大量数据.他透露,阿里集团拥有的数据达到30P(1P=100万GB). 然而,当前数据人面临一个矛

阿里大数据野心:建立数据地图

阿里集团董事局主席马云提出的"平台.金融.数据"三步走战略正逐渐清晰起来.继阿里集团架构调整.组建小微金融服务集团之后,阿里大数据的神秘面纱也在一步步揭开. 4月11日,阿里举办媒体开放日,淘宝网商业智能部首席商业智能官车品觉首次向外披露阿里大数据进展. 车品觉认为,未来,数据将成为公司的核心竞争力.阿里集团数据的优势在于,用户从搜索到浏览.支付,形成深度的交易链条,其中每一个节点都将产生大量数据.他透露,阿里集团拥有的数据达到30P(1P=100万GB). 然而,当前数据人面临一个矛

新加坡推出人工智能计划AI.SG 迎战人工智能和数据科学关键难题

新加坡政府为解决新加坡面临的挑战正在转向人工智能(AI)和数据科学,日前引入了新的举措和解决方案以推动这些行业的发展. 新加坡的国家研究基金会(NRF)是总理办公室下属的一个部门,NRF将在五年内投资一亿五千万新元(一亿一千七百三十三万美元),旨在发展新加坡的人工智能技术.NRF日前推出名为AI.SG的计划,该计划横跨包括信息通信媒体发展管理局(IMDA).经济发展局(EDB)和综合卫生信息系统(IHiS)等各种政府机构,AI.SG计划亦将涵括本地AI研究机构和AI初创公司. 通讯与信息部长Ya

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧.而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了.数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl.调度.建模在内的完整的理论体系.现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新. 两者并无冲突,相反,而是一种更好的结合. 话说,单纯用用Hadoop.Spark.Flume处理处理数据,其实只是学会几种新的工具,这是搞工具的,只是在数据仓库中etl中的一部分.

大数据时代:休眠沉睡的政府数据看不着、查不到

长期分散在各个政府部门的各项数据"各吃各饭""各管一摊",休眠沉睡.一边是看不着.查不到,一边是握在手.落满土--大数据时代,诸多政府数据面临着如此尴尬.如何唤醒政府数据?这一大数据时代之问,已经成为社会的重要关切. 政府数据像是穿着"隐身衣" "很繁琐."面对半月谈记者的采访,长春一名硕士研究生王贺说,因研究需要,他要查阅省内县市七八十年代的经济发展数据,包括GDP增速.人均收入增速等. "这些数据县里都有,提供起

解决Hadoop难题 SAS推自助式数据软件

文章讲的是解决Hadoop难题 SAS推自助式数据软件,在大数据环境下部署经济实用的Hadoop架构日趋流行,这对数据访问.数据整合和数据质量管理提出了更高的要求.为了满足企业新增数据处理等多项需求,SAS推出了SAS? Hadoop数据加载器(SAS? Data Loader for Hadoop).该产品通过直观的用户界面,帮助企业访问和管理Hadoop平台上的数据. 无需特别技能,即可管理数据 SAS? Hadoop数据加载器拥有自助式管理.转换.清洗和准备数据的能力,解放IT部门的同时得

XTools观点:大数据太薄CRM助探索厚数据

文章讲的是XTools观点:大数据太薄CRM助探索厚数据,人的一生会给这个世界留下痕迹,呱呱坠地.童言无忌.青梅竹马;三两知己,把酒言欢,激情四射;大山大河.奇峰怪石.高峡平湖;浮华背后,机关算尽,如此种种.随着互联网时代的到来,更多的社交方式愈加普及,人们的痕迹,就像"孙悟空到此一游"一样,以数据的形式被记录下来.喜欢的书.音乐.电影.景色.同道中人 -- 数据之大,难以想象. 许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为"大数据&quo