大数据里的真命题和伪命题

ZDNet至顶网软件频道消息:大数据必会深刻的改变这个世界,这点是毋庸置疑的,但从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。

大数据与预测

人们总是想预测未来,因为这样经济收益会非常大,作为结果就经常看到大数据与票房预测的故事,有时准,有时不准。

大数据确实可以用来做预测,但是有能力边界的,影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是:参入者的思维与参入的情景之间相互联系与影响,彼此无法独立,认知与参入处于永远的变化过程之中(百度百科)。反身性之所以对预测有影响,是因为它会导致出现不连续的变化。

这在逻辑上很好理解,当一件事物是连续变化的,你比较容易计算出它未来的状态,比如汽车,我们只要知道他的速度,那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统,这种预测就很难实现,汽车本来走的好好的,突然天上掉下一架飞机来,那它当然不会出现在本来预测的那个位置。所以做预测,第一关键是这系统是不是一个混沌系统,在充满偶然的混沌系统里,基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。

当我们去观察某个系统并采取行动时,系统本身会因为我们的观察和行动发生改变,这就是反身性。而当每个人都这么做时,那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点,如果大数据在预测上是没边界的,那只要掌握了大数据就应用技巧,那在金融市场上就没人不会赔钱,但显然这是不可能的,最多是不同人输赢的概率不同。

容易预测的与不容易预测的

如果一种现实更多的依赖于某些不易改变的因素,比如一种文化传统、一种生物特性,那这种现实是容易被预测的;如果一种现实更多的依赖于可被瞬间改变的因素,比如:人们的心情,那这种现实是不容易预测的,甚至是不可预测的。

具体来讲,人们生病后会检索自己的相关症状,而传染病会扩散,因此Google那种监测传染病暴发区域,以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。

但股票就不行,因为你在预测,别人也在预测,买家和卖家的行动又不一致,这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢?

同传染病和股票市场相比,电影票房的可预测性则在两者之间。有必然性在支撑,比如基本上很垃圾的电影很难有好的票房,但偶然性影响也很大,你不好预测那个点戳到了人们的那个神经,它突然就变火了。谁能预测泰囧的10亿票房呢?所以我的判断是在票房预测上,不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题。

总结来看,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。

监测与预测

在预测上大数据必须面对自己的边界问题,但在监测上大数据的威力是无远弗届的。

我们这个世界的数据化程度一定是越来越高的,当我们在社交网络中活动时,其实就是我们个人在不停数据化的过程,我们的偏好、关系、每日活动等正在源源不断的数据化过程中,如果可穿戴设备、智能家居发展起来,那数据化的东西就会更多。

我在互联网时代的方法论那系列文章里一直坚持这样一种观点,互联网正在生成一个与现实世界并行的很像黑客帝国的意识空间,而这个意识空间是数据化的。理论上讲,在这个空间里不存在信息不透明这回事,空间和时间不再成为阻隔信息流动的障碍。所以不管你喜欢不喜欢,在数字化面前每个人正在变成透明人,也就是说100%可监测。

监测与预测间的桥梁是必然逻辑和直觉,直觉依赖于个人才情天分,这放在一边不提,主要谈下必然逻辑。有必然逻辑在事情就有了发生的可能性,但不一定发生。这点比较不好理解,我们来看个例子:

我们谈微信的时候更容易聚焦到张小龙打造产品的功力,往往容易忽视马化腾张小龙才是打造微信的组合。从公开报道来看,当时腾讯内部是有很多团队同时在开发移动IM的,而这种投入很可能是基于“移动互联网才是真的互联网,腾讯必须在移动互联网的IM上占有统治地位”的假设,在这种假设下马化腾又有所谓的灰度理论,所以才有多支团队同时并进。如果没有这类顶层设计,我想更多公司更可能是在移动版QQ上做微创新,进一步掉入创新者的窘境。

如果抽象点来分解这个例子,那我们可以这么讲,移动互联网的发展是可以从大数据上感知的,因为只要做足够的监测,那么就可以从数据上在较早阶段感知到这个趋势。但判断移动互联网是真的互联网,则依赖于当事人的眼光格局,再进一步决定去同时做微信和手机QQ,那则是上述逻辑的一个后果。在决定做微信那个时间点,马化腾乃至其他大佬也不知道它一定能成,否则大家一定是别的事情都不干,都专心做微信。但微信确实是移动互联网是真的互联网这一条必然逻辑的一个衍生品,相当于是预测未来的一个后果。这就是大数据、监测、必然逻辑与预测的关系。

结束语

大数据方兴未艾,但在用大数据时最好也考虑下它的能力边界,否则就可能因为它在某个点上失灵而怀疑大数据本身,这是会得不偿失了。随着数据化程度的提高,反身性的作用可能会越来越大,作为结果,世界会变得越来越像混沌系统。在这样的趋势下,相信上文提到的监测与必然逻辑的结合应该会对如何使用大数据有所帮助。

作者介绍: 李智勇,《互联网时代的方法论》、《完美软件开发:方法与逻辑》及《程序员生存定律作者》作者。

原文发布时间为:2015年02月16日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-08-03 07:50:35

大数据里的真命题和伪命题的相关文章

在大数据里:Hadoop可能是你的救命稻草

文章讲的是在大数据里:Hadoop可能是你的救命稻草,用于数据分析的开源Hadoop架构的巨大增长是由其结构化和非结构化数据量的增长所驱动的,并且很多权威组织也预测,未来Hadoop架构还将继续增长,并需要复杂的可访问工具来从数据中提取业务和市场信息. 对于Hadoop来说,前景很乐观--开源框架旨在促进巨大数据集的分布式处理.Hadoop对企业越来越具有吸引力,因为它既可以获取大数据的好处,同时又避免了基础架构费用. 联合市场研究部门最近的一份报告表明,Hadoop市场将实现从2013年到20

大数据里看春运 哪些线路最热门?

"http://www.aliyun.com/zixun/aggregation/12669.html">百度迁徙"发布的腊月二十六22时前的全国8小时最热线路图 12306网站资料图 支付宝发布的春运路线热点图 40天,36亿人次.这是3721.html">2014年春运的总时间和总出行人数.在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门? 在以往,这些问题可能难以精确回答.但随着技术进步,通过应用"大数据&qu

大数据里看春运:实时地图上的春运全景

"百度迁徙"发布的腊月二十六22时前的全国8小时最热线路图 12306网站资料图 支付宝发布的春运路线热点图 制图王斌 40天,36亿人次.这是3721.html">2014年春运的总时间和总出行人数.在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门? 在以往,这些问题可能难以精确回答.但随着技术进步,通过应用"大数据"这一技术利器,人们已经接近"在迷宫中感受全局"地看见春运的全景. 实时地图上的春运全

案例分享:康诺云——医疗大数据里的学问

康诺云是一家致力于在医疗大数据领域创业的初创公司.通过给用户提供http://www.aliyun.com/zixun/aggregation/12034.html">可穿戴式设备,连续记录用户的体征数据(比如血压.心率.血糖等),然后将这些数据发送到云端,然后通过云端的算法对这些数据进行分析,得出用户自身的连续体征波动规律,当波动出现异常时则会有预警出现. 在今年5月份,小编曾有幸采访到了康诺云创始人之一康辉,但由于各种原因,采访内容一直未刊登.今天重新翻出当时的采访记录,发现其中有很多

大数据里有大“文章”

3月28日,南都娱乐周刊预告将在周一爆猛料.随即,网友便指出猛料疑似文章与姚笛出轨.紧接着#周一见#.#文章出轨#等话题愈演愈烈.一场因"文章"而起的大事件在娱乐圈炸开了锅.此事中,三位"主演"关注度趋势是怎样?网友都持什么样的态度?在此次事件中,大家都在议论些什么-让我们从大数据中来一探究竟: 公众影响力:坏事传千里,捂也捂不住 上周五,从南都开始预告猛料到网友猜测,网上开始出现#周一见#.#文章出轨#.#马伊琍挺住#等热门话题.再到门户网站发出视频,真相大白.整

大数据里实现学生工作“四化”

高校如何加强学校数据整合与共享,精准服务学生工作?笔者认为可从以下路径探索:"全员参与+技术支持+分步实施+智能服务"四位一体. 全员参与是将数据应用于学生服务的基础.在应用大数据开展学生服务的过程中,不能仅靠某个或某几个部门或团队,还需要学校领导重视和支持.各职能部处和学院统筹与协调.全体教职工和学生共同努力与配合. 技术支持是将数据应用于学生服务的保障.随着大数据理念逐渐深入人心,各学校也开始逐渐认识到学生数据的价值,并希望其在人才培养过程中发挥重要作用,提高学生服务质量.如何让这

大数据里一岁除 ,盘点式营销哪家强

"2015过去了"."2016即将到来"."时光飞逝"--如果浏览到以上关键词,你或许已经进入了一个名叫"年度盘点"的大坑.年初年末的这段时间,企业的年度盘点铺天盖地砸下来,随意一瞟,就能捕获一份新鲜出炉的盘点策划. 截止今天下午1点,百度随手搜索"2015年度盘点",会弹出2530万条结果,谷歌则有871万条结果,这两个数字并没有包括很多像"我和微信的故事"一样包着各色"马甲

大数据里看世界杯四强

世界杯半决赛开打,四强捉对厮杀.令人眼花缭乱的攻防大战背后,各项大数据正以毫秒为单位飞速产生.通过云平台,许多人正在"暗算"风险机遇,为教练战术调整出谋划策. 荷阿矛锋利 德巴盾坚韧 攻防两端无疑是球队实力最重要的体现.根据体育数据公司欧普达提供的比赛数据,四强在攻守平衡上做得并不好. 荷兰队追求高效率的进攻方式,一方面表现为高进球数和传球成功率,另一方面则是四强中最低的总射门数.射正次数.控球率. 阿根廷人依靠傲视32强的控球率和传中数,为梅西.伊瓜因等球星的爆发储备时间,让他们在小

大数据里看“爸爸”第二季播放量超5000万

湖南卫视亲子户外http://www.aliyun.com/zixun/aggregation/1952.html">真人秀节目<爸爸去哪儿>第二季首集上周末开播后热度不减,收视相比第一季第一期上涨逾120%."爸爸"热度为何能持续不减?近日,作为该剧的网络独播方,视频网站爱奇艺发布该节目上线24小时网络播放数据,从"大数据"的角度解读<爸爸去哪儿>第二季"魅力"究竟何在. 从播放量上看,<爸爸去哪儿