2013年商业世界最关注的一个词是什么?无疑是“大数据”。
各行各业、每个角落都有大数据的踪影:电商平台、购物中心、银行、酒店……即便宅在家里足不出户,它也能洞察你的需求并及时奉上你想要的资讯、商品或服务。
这与涂子沛的料想几乎完全一致。2012年7月,这位常居美国的信息管理专家、曾经的数据仓库程序员出版了《大数据:正在到来的数据革命》(下称《大数据》)一书,用“中国人自己的故事”提醒大家:大数据来了!话音未落,2013年大数据的浪潮就席卷了整个中国。
“变化太快、太大。”这是涂子沛这一年多以来最常慨叹的一句话,他把这些新现象全部归结到新作《数据之巅》当中。
用他自己的话来说,《大数据》主要注重于新的现象和挑战,《数据之巅》则从历史的纵深上去追溯数据的来龙去脉,在这种讲述中对中美两国进行横向对比,“中国现在有后发的优势,数据和软件的出现为我们实现商业变革和跨越式发展提供了新的可能性”。
变革
第一财经日报:去年年初,您在本报发表的一篇文章里说希望2013年是中国社会的大数据年,现在,您如何评价这一预期?
涂子沛:完全达到了预期,我能感受到现在中国社会对新的技术、新的理念有一种非常迫切的热情和需要。
2013年,大数据占据了各大新闻媒体,只要是高科技的会议总会谈到大数据,甚至两会上都有大数据的分析。我去年在国内做了几十场演讲,面向企业、金融机构、高校和政府的都有,我甚至受到许多中小城市地方教育局局长的邀请。每一场论坛都能收到很好的反应和回馈,让我体会到了中国社会对新技术、新理念的渴望。
这也正好说明了大数据不仅仅是一种技术现象,它还是一个商业变革和社会变革。
日报:大数据在国内应用的发展是怎样的一个过程?
涂子沛:大数据的应用阶段其实就是它的一条发展曲线。
任何一个新技术、新理念的发展都是一个渐进的过程,很多人在不断地认识它,然后会突然出现一个爆发和上升,所有人都开始谈论它并说它的好处。但实际上,这个“热词”肯定也存在泡沫的成分,我们现在就属于这样的情况。
但到了一定阶段大家就会发现,原来这个东西也没有我们想象的那么强,它也存在问题。这时候就会有人发出批评的声音,从神化它变为丑化它。美国社会就到了这个阶段,不断有人对大数据提出批评,我们中国社会也差不多快到了,这代表我们正在进入下一阶段。
这个新阶段更加理智,大家可以更加理性,平静地对待大数据,让它成为我们生活的一部分。这个时候在技术层面上会开始发展并逐渐上升到某个高度。从这个角度来讲,大数据不像是云计算,后者只是一个纯技术问题,而前者是一个涉及到商业管理、商业变革甚至社会变革的持久问题,起码在未来几十年都会是焦点。
日报:总结来说,一共是五个阶段?
涂子沛:一共是五个阶段:一开始是一个认知期,大家都在爬坡、认识。第二是一个过热期,所有人一拥而上、参加讨论。接下来是一个冷却期,人们发现大数据不是万能的,开始降温。然后会出现一个平稳的发展期,技术应用到商业运营的各个环节和生活的各个角落。最终大数据的理念也成熟起来,成为我们生活中习以为常的一部分。
进步
日报:硬件和软件方面的提升在大数据的发展过程中分别扮演了怎样的角色?
涂子沛:硬件扮演的角色就是提供物理基础,这可以用摩尔定律来解释,它很大程度上降低了数据的保存成本。例如,1TB的容量足以把整个图书馆的内容保存下来,现在1TB的硬盘大约售价为45美元,也就是说花300元左右就能把整个图书馆拷贝存储下来。而这个价格还在持续下降,未来20年内或许用一杯咖啡的钱就能买到。所以说硬件的发展提供了大数据应用的基础。
而软件则是执行计算的工具。使用数据的唯一方法就是计算,数据的价值是通过软件来体现的。对大数据而言,硬件方面是容量的尺度,而软件则是价值尺度,大数据最后还是要落到这一价值上。另外,因为大量数据的存在,软件本身的功能也会得到大量改善。例如建模,数据多的情况下就可以建一个更好的模型。软件以挖掘数据、使数据产生价值为使命,而大数据的出现反过来促进了软件功能的提高。
日报:在数据的分析和使用中出现了哪些新兴的工具?
涂子沛:主要是数据挖掘和机器学习,它们之间也存在很大差别。
数据挖掘就是建一个固定的模型去分析数据,但机器学习的模型却是灵活可变的。也就是说,数据越多,机器学习的模型就能自我调适让它更加精确。
举个例子,现在图形挖掘中的一大难点就是人脸识别。如果按照数据挖掘的方式来做,可以通过人脸的特点把模型建立起来。但如果是机器学习,一开始只是建一个初步的模型,建好之后再拿成千上万的脸部图给这个机器,它就会自己去判别每一张脸的特点,然后改善模型。原来在数据挖掘的固定模型之下,判别的失误率很高,而机器见的脸越多,它的识别率就越高,判断就越准确。
数据挖掘是一个固定的模式,不会轻易改变。但机器却可以在识别和处理人脸越来越多的基础之上调整各种参数,让自己的模型越来越准确,所以称之为“机器学习”。在这种情况下,机器和人一样获得了智能,甚至能产生判别。
大数据最重要的意义一个是整合,另一个是自动化。通过大量数据的整合,人们能发现以前所不能发现的知识,于是产生了价值。第二,可以通过大数据让机器获得智能,实现自动化,这也是人类使用数据的巅峰状态。
新模式
日报:大数据怎样改变了传统行业的商业模式?
涂子沛:这次回国我参观了通联数据这家公司,这是一家新兴的创业公司,他们要用大数据开发新一代的基金管理和交易的平台,具体做法是收集大量的、多源的、实时的数据,为基金经理和投资者提供数据分析、查询和判断。通联数据也在思考探讨如何用大数据去衡量小微企业的信用,或许这能开创一个新的商业模式。
另外,浙江的银江电子股份公司也在思考如何利用大数据技术来帮助浙江省政府解决医疗保险中的欺诈行为。这样的创新依赖于医疗领域丰富的数据。教育领域也有非常多的数据可以用,比如高考数据要是开放出来让民间去挖掘,一定能得出大量有助于考生填报志愿、优化录取过程的结论。
除此之外,公共领域也有一些新的应用,政府也在尝试破冰。例如,广东省正在用大数据来抓假车牌,我从广东省的经信委得知,仅2013年就抓了50多辆套牌车。
这种基于大数据的竞争是一种精细化竞争的要求和表现。但总体而言,国内的商业竞争还是比较粗放,很多决策也都是拍脑袋。所以在《数据之巅》里面我提出,数据是从“中国制造”到“中国创造”的抓手,也决定着商业形态从粗放向精细化转型。
日报:数据使用方面出现了哪些新的商业模式?
涂子沛:数据的使用要兼顾个人的隐私保护,目前已经出现了一种全新的商业模式:用户授权使用。
毋庸置疑的是,未来消费者隐私的保护就是要把权利交回到用户手中,要用户授权才能查询个体产生的数据。
美国有一家经营小微企业贷款的公司叫做Kabbage,它会收集企业的很多数据来作为是否发放贷款的依据,其中一项是用UPS发了多少快递。但这里存在一个问题:Kabbage要去UPS查询企业的快递记录,但UPS需要该小微企业的授权同意才能这么做,即使该企业同意,UPS公司也可以拒绝Kabbage的要求。最终的结果只能是,即便用户授权了,Kabbage需要查数据时也要付钱给UPS。对UPS来说,数据就是资产,这就是新的商业模式。
另一方面,小微企业也可以直接找到UPS,希望拿到自己的数据。但数据经过它自己的手,Kabbage就可以质疑数据的真实性从而拒绝接受。因此这些企业可以寻求UPS的数据认证,然后再将其交给Kabbage。这样一来,UPS就可以向小微企业和Kabbage两方都收取费用。
从这个例子中可以看到用户授权、隐私保护、数据资产、第三方框架怎样使用数据等内容,这就是未来数据商业的模式。
(责任编辑:蒙遗善)