时间是1948年,地点是中国东北。辽沈战役进入关键阶段。对于第四野战军司令员林彪来说,拿下锦州后的最重要目标就是打败前来增援的国民党新六军。林彪使用的方法就是每天听取“军情汇报”,由值班参谋员读出下属各个部队的当日战况和缴获情况。
那几乎是千篇一律的数据,异常枯燥。直到有一天,林彪突然发现,在胡家窝棚的一场两军遭遇战中,缴获短枪与长枪的比例比其他战斗略高,击毁小车与大车的比例比其他战斗略高,俘虏和击毙的军官与士兵的比例比其他战斗略高。
林彪由此断定,国民党军队的指挥所就在这附近,他下令立即对从这里逃走的败军进行追击。果然,部队很快就在附近抓住了国民党方面的指挥官廖耀湘,此成果揭开了中共军队辽沈战役胜利的序幕。
林彪当年的做法符合近年风行全球并深入改变世界的大数据的简单定义——从在别人看来枯燥乏味的数据中,发现有价值的信息,并将其转化为机会。
人类社会全面数字化引发了数据量爆炸式增长。人、资金、商品的流动都以数据化方式呈现。当前,每天在全球各行各业产生的数据已经足以填满超过2亿张DVD光盘——在这些看似杂乱无章的数据中,蕴藏着无限的金矿。
近年,伴随着存储能力、计算能力和传输能力的进步,人们开采这些金矿成为可能。数据不仅成为推动行业融合兼并、企业做大做强的战略性资产,更是体现一个国家综合国力的重要组成部分,成为陆、海、空权益之外的另一种国家核心资产。
当前,大数据时代无可争议地来临了。它源自全球数十年的技术积累,但仅用了最近两三年时间,便迅速渗透到各个行业。中国并不例外,百度、阿里巴巴、新浪微博、腾讯微信等最核心的资产便是大数据;众多行业、企业开始使用并利用大数据作出变革;中国6亿多网民的上网记录等正成为大数据的核心内容。
在财新记者采访的诸多业内人士看来,大数据来临的势头甚至比十几年前互联网泡沫时期还要迅猛。大数据更加实际、更容易落地、盈利模式更清晰。由大数据推动的行业变革,将会对整个世界格局产生颠覆性的影响。
而对于普通公众来说,虽处于大数据时代,但对大数据仍是陌生的。大数据在中国正在做些什么?一家企业或一个个人可以得到何种便利,又或可能遇到何种“坏处”?了解大数据,是解惑的开始。
“国家核心资产”
2012 年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府将大数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为陆权、海权、空权之外的另一种国家核心资产。
美国的这一举动,是继1993年克林顿政府的“信息高速公路”计划后的又一次“狂飙突进”。在以中国为代表的新兴国家日益对美国的经济、政治影响力构成挑战的时候,通过大数据研究提高美国对数据资产的掌控能力,有助于美国抢占新的国际战略制高点。
但是什么是大数据,迄今为止,在产业界、学术界并没有形成一个公认的科学定义。上海软件产业促进中心主任唐全荣接受财新记者采访时说,他曾经和伦敦帝国理工大学一位华裔教授讨论,什么是大数据?而这位教授认为,能够处理的数据都不能称为大数据。
首先提出大数据概念的国际咨询公司麦肯锡,认为大数据就是大小超出常规数据库工具处理能力的数据。国际数据公司IDC则用“大体量(volume)”“多样性(variety)”“快速处理(velocity)”和“高价值(value)”来定义大数据。
正是由于大数据的这些特性,使得传统的数据分析、数据挖掘、数据处理手段都不再适用。社会需要为动态、高维、复杂的大数据建立形式化、结构化的描述方法,进而在此基础上发展大数据处理技术。
唐全荣说,跟云计算开始的时候一样,许多人在争论定义,而在IT基础设施从带宽到存储能力的发展让云计算真正走向应用的时候,就没有人再关心它的定义了。而大数据概念也是一样,它也是伴随着数据的处理、存储和分享能力的提升而出现的,从这个角度上看,大数据不仅是指需要处理的数据对象,也包括了处理的技术。
如果说云计算为数据资产提供了保管、访问的场所和渠道,那么数据才是真正有价值的资产。随着人类活动和资源环境信息的数字化,更伴随着存储和处理能力的提升,让我们能够从包括文档、图片、视频乃至大量来自物联网的传感数据中获取有价值的信息。
虽然处理难度大,但是可能获取的价值更高。在美国,利用大数据可以帮助零售商增加60%的利润,帮助制造业减少50%的装配成本,基于大数据的智慧医疗,产值高达3000亿美元。
中关村大数据产业联盟副秘书长颜阳对财新记者说,现在的趋势就是数据要成资产。而这从Facebook上市获得的估值就可以看出来,它并没有多少实物资产,它上市后拥有的1000多亿美元的市值,都来自无形资产,最重要的无形资产就是它的数据。
从中国的BAT(百度、阿里巴巴、腾讯)三大网络巨头来说,他们各自拥有不同的大数据,都是无价的资产。百度拥有用户搜索数据和公共网页数据。实际上百度、谷歌本身就是一个大数据公司,它们通过对全球网页数据的抓取和解析,帮助用户从海量数据中找出搜索结果,实质就是对数据的获取、组织、分析和挖掘的过程。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
业内人士透露,也正是看到了用户数据的巨大价值,微博网站现在已经拒绝网络爬虫访问微博内容,这就让搜索引擎很难搜索到微博的内容,而微博自己则把这些数据打包出售。
专门从事大数据分析的文思海辉技术有限公司首席技术官芮祥麟说,不久后,数据也将像技术、设备、人力资源那样,成为企业重要的资产。与其他资产不同的是,大数据资产越是开放,越是共享,越对整个产业和社会民生有利。
他认为,大数据的本质,将是把数据从应用中解放出来,独立形成价值链。今后将是数据定义应用,定义软件、定义网络、定义数据中心、定义一切。
据 IDC预测,到2020年全球将总共拥有35ZB(1ZB=1万亿GB)的数据量。麦肯锡预测,未来大数据产品在个人位置服务市场的应用就将产生8000 亿美元的价值,未来中国大数据产品的潜在市场规模有望达到1.57万亿元人民币,不仅将给IT行业开拓一个新的黄金时代,更将颠覆各行各业的竞争格局。
掘金大数据
“我们就是挖矿的。”在6月21日大连举行的大数据技术领袖峰会上,金电联行执行副总裁艾小缤对财新记者说,他们就是通过挖掘小微企业的财务数据,分析企业的信用等级,进而帮助他们拿到贷款。
对于广大中小企业来说,在中国缺乏信用体系的情况下,只能通过联保互保拿到贷款,而这实质上还是抵押质押。而这对银行来说,抵押品也并不安全。在经济下行的时候,一切担保的手段都会失效。
“在国外,有一个完整的体系去抑制失信情况的发生,但是我们没有。”艾小缤说。所以他们就想到了另外一个方法,就是让企业证明创造价值的能力,而这可以作为银行放款的必要条件。
这就用到了大数据。他们可以使用大数据技术描绘企业的赚钱能力。这些数据的来源,包括企业的采购情况、订单情况、库存情况,有多少应收账款、有多少现金、发了多少工资、交了多少税,甚至能耗的情况。
“我们不相信财务报表,而是看企业生产经营的真实数据,不看合计数,而是看明细数,因为合计数往往掩盖了真实的规律。”艾小缤说。例如在报表中,企业可以通过一笔过桥贷款而实现当季的赢利,但是在原始数据中,这笔突然而来的现金就会被发现。
从至少两年的原始数据中,可以还原这个企业创造财富的过程,判断企业是否有足够的赚钱能力。2010年,民生银行根据他们的信用报告,为一家企业发放了第一笔纯信用贷款。到现在他们已经帮助800多家企业拿到了40多亿元的贷款,最大一笔单笔贷款为6800万元。
艾小缤自豪地说,在这800多家企业中,还没有出现一笔不良贷款。而且他们的大数据技术还可以帮助银行对这些企业进行贷后监管,相当于给企业穿上了可穿戴设备,随时监控企业的健康状态,企业的增长性、稳定性、活跃度,都可以从大数据反映出来。
利用大数据为企业做体检,是大数据应用中比较另类的一个。而为个人做体检,让2011年从美国硅谷回来的糜万军,带回来了第一桶金。
2000年在美国第一次创业时,在斯坦福刚刚完成计算机和金融学业的糜万军拿到了军方的一个实时翻译系统的研究项目,在完成这一项目之后,他开的第二家公司就是希望利用个人的医疗信息预测其医疗费用,给保险公司做参考。
“这在技术上实际比第一个项目简单多了。”他说。利用数据挖掘技术,他们把斯坦福全校员工的体检记录和就诊记录综合分析,然后对所有人每年的医疗费用进行预测,这样可以让保险公司知道在谁身上挣钱,在谁身上赔钱。
但是这个项目做到后来,大的企业代替保险公司成了他们最主要的客户。因为在美国很多大企业是自己承担员工的医疗费用,他们在帮助企业预测了每个员工可能的医疗支出后,再帮助企业制定员工的个性化健身计划,提前帮助员工改善健康状况,反而省下了医疗的开支。
这样既帮企业省了钱,员工的工作效率也提高了,员工的幸福感也提高了。所以这项业务受到了美国许多大企业的欢迎,现在从斯坦福大学到思科、苹果等大公司,都是他们的客户。“这个项目既有经济效益,又有社会价值。”糜万军说。
2013 年8月,糜万军从北京来到上海,成立了经尔纬数据技术有限公司,专注于做大数据平台的垂直应用,包括广告营销,计算社会学和金融应用。在金融方面,他们本来想利用分析各种公开数据得到一些投资建议,为对冲基金服务。但是后来他们发现这种分析方法的效果非常好,于是他们不想卖了,自己成立了一家对冲基金。
“这是一个万亿级别的机会。”他对财新记者说,现在的这波大数据的热潮,势头一点也不亚于本世纪初互联网泡沫时期,而且势头更猛,落地更快,盈利模式更加清晰。在他看来,数据挖掘可以和各个行业结合创造价值。他现在也是宽带资本的投资合伙人,主要负责大数据实验室,专门投资利用大数据开发行业应用的公司。
上海星红桉数据科技有限公司就是糜万军来到上海后投资的一家利用大数据技术进行传媒分析的初创企业。
这家公司的创始团队,是从一家收视率调查公司分拆出来的。在中国,收视率数据是巨额电视广告投放的基础,但是过去收视率调查都是通过样本户调查的形式,即便是在北京、上海这样的大城市,也只有500户-600户样本,这样就很容易造假,只要搞定几个样本户,让他们专门看某个台或某个节目,就会对收视率产生很大的影响,涉及到巨大的经济利益。
而随着电视的大规模数字化,从后台采集全部用户的播放数据就成为可能,这样就避免了抽样调查带来的波动性和不确定性。上海星红桉数据科技有限公司总经理李馥岑说,利用这些数据,不仅能够提供收视率分析,还可以对用户的播放行为进行深度分析,让广告投放更加精准、效果评估更加清晰。
而在新媒体时代,他们可以对包括机顶盒、智能电视、平板电脑、手机等各类终端上的收视行为进行采集,完成收视数据的分析与挖掘,广告和节目的价值评估,此外他们还可以利用这些数据进行智能导视推荐、影视剧风险评估、用户流失率分析、植入广告分析等众多场景应用。
可以说,阻止大数据渗透到每个行业应用的惟一障碍,就是人们的想象力。研究者总结了九个价值非常高的大数据的应用,包括理解客户、满足客户服务需求;业务流程优化;个人生活服务;个性化医疗;运动员状态监测;优化机器和设备性能;提高公共服务能力;实时交通优化;利用社交媒体和网络新闻的高频股票交易。
挖掘能力制胜
目前,在全球500强企业中90%以上的重要投资和经营决策都取决于深入的数据分析和挖掘支持。IDC中国区助理副总裁武连峰此前表示,大数据的应用前景十分广阔,并将逐步走入传统行业。中国今后五年大数据市场复合增长率将达51.4%。
颜阳说,技术改变一切这个说法一点也不夸张,可以说现在没有解决不了的问题,只有想象不到的需求,惟一的区别可能是用户体验的不同。而在大数据时代,谁拥有了高超的数据挖掘技术,就意味着拥有了打开金库的钥匙。在数据多样时代,数据有结构化的,但更多是非结构化的,更新频率也不一样,数据来源也越来越多。
过去人们尝试使用传统的结构化数据库来处理非结构化数据,但结果是力不从心。直到谷歌在研发页面检索服务的过程中,解决了网页、文档这类数据的快速访问难题,成为大数据技术的先驱。此后雅虎的一个开发小组,把谷歌的成果开发出大数据处理的一套程序框架,就是众所周知的Hadoop。
这些公司的实践,让大家对各类非结构化数据的处理难题重拾信心,对于图像、视频、音频等数据的处理技术也驶上了快车道。
面对大量非结构化数据,首先要给这些数据建模,从传统的分析手段,加上小波分析、协同过滤、机器学习等大量的复杂分析手段,为这些数据建立一个好的回归模型,这样才能根据这些数据进行预测,帮助企业优化商业解决方案,帮助银行进行客户风险管理,帮助广告商进行精准营销。
谷歌公司首席经济学家哈尔·范里安(Hal Varian)曾“不开玩笑”地表示,在这个几乎一切都能被监控和测算的年代,“未来十年里,统计学家将会是最性感的职业。”
芮祥麟说,他们现在已经可以帮助银行对于特定客户制作360度视图,让银行全面了解这一客户的状态。他们还为一家亚洲较大的股票交易所建立了复杂事件处理模型,通过实时分析交易数据,预测可能发生的问题,为制造企业进行预测性维修,通过分析设备的历史数据,分析可能出现的问题的部位,还可以为医生进行快速 CT诊断。
在芮祥麟看来,其实大数据并不神秘,只是由于过去许多知识、经验的积累到了今天,让人们具有了利用这些数据进行预测的能力。当然也不必迷信大数据,它所能提供的,更多的是一种趋势的预测,是一种几率。
数据分析的及时性,在很多情况下比精确性更加重要。关键是“预测趋势”。沃尔玛的利润和卫星图片有什么关系?正是因为瑞银需要更准确的预判企业的盈利状态,除了传统的方法,瑞银还购买了卫星图片数据,从中获得沃尔玛停车场的数据,以此作为模型的一个维度。
可以说大数据的关键价值,就是获取信息优势。大数据的核心能力,就是发现规律、预测未来。
对于从事地理信息系统的超图软件来说,他们所针对的地理信息本身就是由大量的非结构化数据组成。超图软件副总裁王康泓告诉财新记者,地理信息越来越广义化,包括卫星信息、无人机测绘信息、雷达遥感信息等,而不是局限于传统的测绘信息,这在技术上提出了更高的要求,需要云计算技术、移动计算技术。
当然大量的信息也带来了商业模式的创新。目前地理空间分析成了空间规划选址必不可少的部分,地理因子、气象因子映射到农产品价格、期货价格上,也要借助地理空间分析。目前流行的GBI(地理商业智能)概念,也是借助于地理空间大数据。
“孕育的产业太多了。”王康泓说,包括产品和服务保障、咨询和决策支持,业内都在积极探索,进行技术储备。
IBM 大中华区电信行业事业部总监丁佐治博士对财新记者说,目前网络的大数据采集已经精细到了用户观看视频的等待时间、等待次数,来自电信运营商的位置信息已经被保险公司用于评估司机的风险,可以说现在各行各业没有不被大数据映射的,关键在于要倒着想问题,以用户为中心,而不再是以生产者为中心。
谁来规范大数据
伴随着大数据时代来临,数字化生存才会真正实现。网络和数字化生活一方面给人带来方便,也使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局,也就是说大数据已经把你出卖了。
能否避免“被大数据”,恐怕很难。糜万军介绍,在美国AOL曾经做过一次实验,只根据某个人的搜索记录,就可以把这个人叫什么名字,住在哪都找出来。可以说只要上网就会留下痕迹,只要留下的痕迹足够多,大数据技术对这个人的描述就足够清晰。
颜阳说,大数据时代,完全的隐私是不存在的。一旦进入了互联网,解决隐私问题就有相当的难度,如果不进互联网,又容易被边缘化。
一位网上商城的技术负责人告诉财新记者,为了进行精准营销,他们不仅要分析用户在网站内的活动,还需要用户的站外活动信息,而这些信息可以从各大门户网站买到。
中关村大数据交易平台技术副总监徐将对财新记者说,只要用户使用网络,就没有绝对的隐私。而只要数据有价值,就有买卖。在北京,每年房地产数据的地下交易额高达6亿元,20G的在线支付网站数据,标价数十万元到上百万元。
但问题是,这些数据的所有权到底属于谁。还有一个更极端的例子,是各大网站都在为用户提供免费的“网盘”,用户可以储存各种资料,“网盘”容量可以达到 100G。对于用户来说,可以说省下了一块硬盘的几百元钱,更给资料的访问和分享提供了方便,但是这些资料,也成为这些网站的核心资产。
如何界定数据资产的归属权和使用权,如何维护用户的隐私,如何保证用户的数据不被坏人利用,都是摆在大数据面前必须明确的问题,而这些问题,可能不是技术可以解决的,需要法律人士的参与,需要国家的顶层设计。
颜阳说,大数据的价值,一方面在于使用价值,一方面在于交换价值,数据可能对拥有者没有用,但是对别的行业很有用。当然这种交换要符合法律。
交换价值实际上可以从过去频繁出现的倒卖个人信息的案件中体现出来。大量的快递单、车主信息被拥有者以非常便宜的价格卖给别人,却为后者创造了大量非法的收入。他说,将来会形成一个数据交易市场,通过这个交易市场数据可以做标准化交易。
要杜绝数据信息被倒卖,最直接的方式是建立一个阳光化的交易平台,让数据提供方、分析能力提供方、需求方能够面对面交易。徐将介绍,目前国外已有大数据交易市场,例如微软2010年发布的针对开发者的ANYPOINT平台,日本富士通2013年推出的企业电子信息交易平台“Data plaza”。
在“Data plaza”上,可以买到的数据包括购物网站的交易记录、智能手机的位置信息、社交网站(SNS)的帖子等。但是这些数据在被交易前需要对全部个人信息进行匿名化处理,这就在满足大数据分析需要的同时,杜绝了隐私的泄露。
据日本市场研究协会(JMRA)统计显示,企业参与的日本数据交易的市场规模每年约为2200亿日元。
唐全荣认为,一方面通过交易平台的建立,可以通过公开挂牌战胜地下交易、引入第三方的监督。另一方面还需要增加泄露隐私的犯罪成本,让用户隐私被滥用的时候,泄露用户隐私的一方也需要承担连带责任,这就要求他们在出售数据信息的时候,屏蔽掉个人信息。
徐将说,中国目前在大数据交易上比较落后,关键是用户比较担心交易合法有效性,虽然目前国家还并未出台大数据国家战略,但是应该尽快明确大数据交易立法,推动大数据的定价机制,进而实现资产化、证券化。“这看似比较遥远,但时间不会很长。”
(责任编辑:mengyishan)