大数据时代的“爆发”论:上帝从不掷骰子

我们的未来,会掌握在大数据手里吗?

只要遇到无法理解的事情,我们就会说那是偶然,似乎这种表面上的偶然行为推动了历史的演进,而事情发展之迂回曲折似乎如掷骰子一般。但这种偶然真正意味着什么?

而法国数学家泊松指出,一旦我们承认人类行为是最随机的,它突然之间就可以被预测了。

悖论吗?其实有一个最适合说明的例子,正是掷骰子:虽然每次掷的点数无法预测,但整体是有规律可循的。也就是,大约每掷5到7次就会出现一次6,而掷100次都不出现6的可能性几乎为零。

泊松的理论即为概率论中著名的泊松分布,而著名物理学家巴拉巴西则在《爆发》一书中进一步将观点明确为“人类行为93%是可以预测的”。

那么,当我们的电子邮件都在服务商的日志中;我们的通话记录、行踪都在运营商的存储上;我们买了什么东西、品味以及支付能力都在信用卡记录里;我们所有的微博、空间、个人主页,干脆展示在网站上……

这些记录的存在引爆了个人隐私危机,但它同时也创造了前所未有的历史机遇——它第一次毫无偏见地为我们提供了成千上万人、而不是少数人的详细行为记录。借助这些数据和强大的计算技术,物理学家、心理学家以及经济学家得以对某些问题仔细研究。他们有充分的证据证明,人类的大部分行为都受制于规律,而且它们的可重现性和可预测性与自然科学不相上下。

这些发现并不只是科学家在纸上谈兵,其中一些模型和原理已经价值数亿,像谷歌和雅虎这样以追踪人类行为为商业模式的公司都身价不菲。可以说,它们颠倒了乾坤。在过去,如果想了解人类的行为和想法,你必须去考个心理学家证书,但现在,你可能需要先拿到计算机专业的学位。

  推而广之,“无论什么事,如果不断收集材料,积之十年,总可成一学者”,每天进行的事情将成为这种“爆发”的基础。这意味着,时间是我们最宝贵的不可再源,如果我们尊重它,就必须剔除无关紧要的事;只有优先清单确定,幂律规律和你所期待的爆发,才会不可避免的出现。

同样,“历史不会重演,却自有其韵律”,如果能洞悉其中的规律,那么我们的未来,或许就掌握在大数据的手中。

《爆发》作者艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási)

本文后半部分为书摘,节选自湛庐文化《爆发——大数据时代预见未来的新思维》,作者为全球复杂网络研究权威、冯·诺依曼奖获得者艾伯特·拉斯洛·巴拉巴西。

作者或许并不为广大读者熟知,电信市场营销专家王煜全甚至在微博上发问:格拉德威尔的《引爆点》人人能懂,成了超级畅销书;凯文凯利的《失控》多数人读不懂,但人人奉为经典;巴拉巴西才是真正理解复杂网络的专家,他的《链接》同样系统而宏大,却没什么名气,这是为什么呢?有网友解释为网络时代的快餐文化,亦有人认为这是因为巴拉巴西的写作特点:大量举例描述,甚至看起来像小说,结论则需要概括才能得出。

@创事记 在此将书中主要观点列于以上,并附书中内容精选:

泊松的悖论

泊松指出,一旦我们承认人类行为是最随机的,它突然之间就可以被预测了。

这似乎是个悖论:如果不可预测性是指偶然性,那么偶然性又怎么能预测呢?答案很简单:泊松所谓的预测跟我们日常生活中追求的有所不同。跟伊斯特凡·泰勒格迪对教皇十字军的未来所做的预言不同,他的手法更像爱因斯坦推导原子运动规律。爱因斯坦知道推测出单个原子的运动轨迹是不可能的,所以转而假设原子的运动是随机的,然后推导出原子离释放点的距离遵循扩散理论。

同样,泊松根本没去想陪审员是否做出了正确裁定,而是假设每个陪审员都像掷骰子那样投票:他们大部分时间是对的,但偶尔会出错,而且我们永远无法知道他们什么时候是对的,什么时候是错的。在这一假设的前提下,泊松利用定罪率的统计数据推导出了整个陪审系统的可靠性。

虽然下次掷的点数是个谜,但在这种偶然性中还是存在某种神奇的规律。尽管存在明显的规律,但泊松过程实际上是一个再随意不过的过程了,因为它就是一系列偶然事件的累计。因而,偏离泊松预测常常代表某种隐藏的秩序,它们揭示了一种有待发现的更深层次的规律或模型。

诚然,我们观察到的很多现象都绝非偶然,比如行星运动、亘古不变的日夜交替等。但另外一些现象,比如天气,看起来似乎纯粹是偶然。不过,正如理查森极力指出的,大气受制于一系列规律和方程式。现在,各地的气象学家都能通过计算成功预测天气情况。此前,人们认为很多现象,如日食、洪灾、旱灾都是受神秘的造物主支配。但现在这些现象都能够被人类预测。这告诉我们,偏离了随机性通常意味着某种基本规律有待人类发现。

大数据时代的大机遇

我们正处于一种不断变化但却日趋精密的被监视状态中。事实上,现在我们的一举一动都能在某个数据库中找到线索。

我们的电子邮件都保存在电邮供应商的日志文件中;我们的通话记录都被加上时间标记备份在电话公司的大容量硬盘上;我们何时何地买了什么东西,我们的喜好、品味以及支付能力都被信用卡提供商编目归档;我们所有的个人网页、空间以及Facebook文件,还有博客的信息都被保存在多个服务器上;我们的即时行踪完全被手机供应商掌握;我们的长相和穿着打扮都被安装在各大商场和街角的摄像头捕捉并记录。虽然我们通常选择不去多想,但事实上我们的生活完全能被这些雨后春笋般出现的数据库所记录的信息串联起来。

毫无疑问,正是这些记录的存在引爆了个人隐私危机,而这一问题的严重性再怎么夸大也不为过。然而,它同时也创造了一个历史机遇——它第一次毫无偏见地为我们提供了成千上万人,而不是少数人的详细行为记录。在过去几年里,这些数据库为各大实验室提供了不少帮助,使很多计算机学家、物理学家、数学家、社会学家、心理学家以及经济学家得以在强大的计算机和新技术的支持下对某些问题进行仔细研究。

实验的结果令人振奋。他们有充分的证据证明,人类的大部分行为都受制于规律、模型以及原理法则,而且它们的可重现性和可预测性与自然科学不相上下。这些发现并不只是科学家在纸上谈兵,其中一些模型和原理已经价值数亿,像谷歌和雅虎这样以追踪人类行为为商业模式的公司都身价不菲。可以说,它们颠倒了乾坤。在过去,如果想了解人类的行为和想法,你必须去考个心理学家证书,但现在,你可能需要先拿到计算机专业的学位。

爆发,生命奇迹的必要因素

生命远不是流畅或随机的,而是在所有时间尺度内都具有爆发式的——从几毫秒到几小时的细胞活动;从几分钟到几周的人类活动;从几周到几年的疾病来袭;还有从几千年到几百万年的进化过程。爆发式是生命奇迹的必要因素,显示出生物为了适应和存活会进行不懈的斗争。

在美国,任何一个65岁或者更高龄的老人不管什么时候去诊所或医院就诊,都需要将就诊的详细记录,包括时间、地点以及诊断情况,递交给医疗保险计划处。在尼古拉斯·克里斯塔斯基的帮助下,我的研究小组拿到了10年的记录并汇总了200万个病人看医生的时间。

我们会在何时得什么样的病取决于众多因素,从我们的遗传基因到饮食、运动、抽烟以及喝酒的习惯,再到我们的工作性质以及环境等都有影响。所以,疾病降临的那一天应该是随机的、不可预测的。

如果你接受人类所有的行为都不是随机而是具有爆发式的,那我们对病史的发现也许就不那么令人吃惊了。不过,我们确实吃了一惊。你知道,疾病的紧急程度绝对不是依靠优先级清单做决定的。如果我们真能按照意愿给疾病设置优先级的话,我敢肯定大家都会直接将他们放在“待办事宜清单”的最底部。通过给疾病设置低优先权,我们就能保证自己永远不生病,一生都过得充实健康。遗憾的是,事实并非如此——疾病会“攻击”我们,会随心所欲、出其不意地将我们这些受害者撂倒。

一般情况下,基础科学转化成实际应用需要走的路很长。20世纪的科学奇迹量子力学在近半个世纪以来都没有发挥什么实际作用,直到发明了晶体管才打破了这种僵局。同样,尽管人类基因组的解码引发了医学革命,但10年后市面上的所有药品还是通过基因组发现之前所使用的试错法研制出来的。

基于此,当看到爆发式那么快就从基础科学转为实际应用的时候,我颇为吃惊。实际上,即使没有获得博士学位,你也能理解这一发现的潜在影响。不说别的,它们至少促进了一种简单而不受干扰的抑郁诊断方法的产生。你觉得情绪低落,而且所有症状都显示出一种潜在的情绪紊乱吗?那么就戴上能追踪你一举一动的腕表吧,医生马上会给出诊断结果,帮你赶走即将来临的抑郁感。

  普遍适用的爆发式

  我们越是发现自己的身体细胞容易出现问题,就越觉得我们能经常保持健康是个奇迹。但一想到两个蛋白质找到彼此的可能性要比你和最好的朋友在纽约市闲逛时奇妙的相遇的可能性小得多,你可能不禁会问我们的基因为何会做得如此成功呢?

  你并不是唯一一个想不通的人。生物学家一直对细胞协调众多基因、蛋白质、代谢物以及构成组织的RNA分子的能力感到不可思议。我们之所以对这个过程知之甚少,主要是因为要想一窥细胞的内部世界真的很难。

  在另外一个完全不同的时代和领域里,达尔文猜测每个新物种的出现都是一个渐进的过程,现有物种孕育出多少有些差异的后代需要经历一个漫长的过程。但这种连续变化的证据不仅过去少有,就算是现在也很少见,因而达尔文称它是“对我的理论的最有利的反驳”。

  实际上,几百万年前的化石几乎没有显示出进化改变。大致上每隔几万年就会出现一种新物种,这跟进化的时间相比简直犹如一瞬。进化具有爆发式,这在一代又一代的化石中都有记录。在颇感奇妙的同时,这些发现也引出了一系列难解的谜题。首先,如果不是决定和优先级设定产生了爆发式,那么为什么爆发式会出现在这么多系统中?我们能够解释这种普遍性吗?

  最近,系统生物学家研制出了基因活动模型,用以捕捉人类细胞内部的爆发点。

  知识似乎也具有爆发式,一个灵感的火花可能照亮几个世纪以来都未明了的混沌。一旦我们找到了一个解决办法,我们真能解决所有问题,还是仅仅引发了更多问题?这两个问题不矛盾,因为很多思想或科学上的大变革带给人的启迪总是多于禁锢。

(责任编辑:刘芬)

时间: 2024-10-22 05:48:47

大数据时代的“爆发”论:上帝从不掷骰子的相关文章

《大数据时代》作者维克托·迈尔-舍恩伯格:爆发式创新 云中大数据如何赋能下一轮经济增长

5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办.英国牛津大学教授.<大数据时代>作者Viktor Mayer-Schönberger(维克托•迈尔-舍恩伯格)受邀出席了本次大会,并在大会上做了主题为"爆发式创新:云中大数据如何赋能下一轮经济增长"的精彩演讲. 英国牛津大学教授.<大数据时代>作者 Viktor Mayer-Schönberger(维克托•迈尔-舍恩伯格) Viktor Mayer-Schönberg

大数据时代,人类生活面临颠覆

对于IT领域来说,最近有很多非常新的概念,比如云计算.物联网,当大家刚刚对这些概念开始有清晰的认知时,又一个全新概念出现了--大数据.什么是大数据?大数据概念究竟指向何方,大数据背后能怎样改变我们生活?会不会给我们的生活和工作带来困扰? 本报与第一财经头脑风暴节目合作探讨大数据时代下的问题.参与这次讨论的嘉宾有大数据概念的提出者.牛津大学教授维克托·迈尔·舍恩伯格,微软亚太研发集团.云计算操作系统首席架构师徐明强,上海市信息化专家.专业委员会专家.复旦大学计算机学院院长王晓阳,科尔尼管理咨询全球

战争步入大数据时代

点击标题下「大数据文摘」可快捷关注 随着大数据在军事领域的高效开发和全面运用,战争将步入大数据时代.在未来战场上,"除了上帝,任何人都必须用数据说话",只有具备大数据优势的一方,才能有效掌控数据--这一关键战略资源,从而在战场上立于不败之地.毫无疑问,打赢未来信息化战争,大数据已成为军队必备的能力. 应对海量数据的挑战 什么是大数据?人们并未形成统一的认识,一般而言,它是指规模远远超过传统数据库软件处理能力的海量数据集合.这一概念首要是针对信息化社会数据"爆炸式"增

大数据时代来了

大数据是当今人们热议的一个词语,人们纷纷在探讨大数据所带来的科技方面.技术方面的进步,及其所蕴含的巨大价值.甚至有人把大数据形容为未来世界的石油,更有人宣称掌握了大数据的人可以像上帝一样来俯瞰整个世界.<大数据时代>一书的作者维克托在大数据时代下的投资蓝海论坛上认为2020年世界将进入大数据时代.那么到底什么是大数据,它具有什么特征,大数据对于产业.特别是普通公众有什么影响,我们在探讨大数据的时候还应该注意什么问题,参加第36期科学家与媒体面对面活动的专家将对此一一进行解读. 世界可以被看作是

大数据时代的现实生活

改变我们生活的科学革命停留在了自然科学的边界上,从没有逾越而触及人类. 如果我们像研究自然现象一样研究人类,我们就能够预测人类行为. 一旦收集到足够多的数据,就可以提出这个基本的问题:我们的可预测性有多高?并且会得到一个令人震惊的答案. 艾伯特·巴拉巴西 人类不愿被放在显微镜下观察 某种程度上来讲,有关人类行为的统计确实有很重要的意义.大量有关人类行为的数据该怎样为我们所用呢?我是一个物理学家,也可以说是一个自然科学家,我认为自然现象是可以被解析.描述,被量化的,并且是可以预测.可以控制的,这一

大数据时代,你准备好了吗?

近日网上流传这么一个故事:一名小伙子专门应聘上海高档小区的物业管理,自己配了扫描枪,每天就盯着小区垃圾堆,看见有条形码就扫描,晚上回家把数据整理出来,得出小区居民喝什么水.吃什么油.买什么衣服,整个小区的消费品类和品牌偏好一清二楚,再形成报告卖给大公司,报告价值数十万. 这是大数据价值的微小表象之一. 2013年被认为是世界的大数据元年,数据被称为新的石油,在未来,数据将会像土地.石油和资本一样,成为经济运行中的根本性资源.美国人维克托·迈尔·舍恩伯格撰写的<大数据时代>指出,大数据带来的信息

全民大数据时代已来 阿里数加平台详解

文章讲的是全民大数据时代已来 阿里数加平台详解,业界流行一种说法,云计算与大数据就是一枚硬币的两面,相生相惜,不可分割.在当下互联网时代,数据的价值越来越受到社会的认可,并在今天,已然成为一种普惠资源,像水.电.能源一样支持社会发展.今天,2016年的阿里云栖大会首站在上海拉开帷幕,作为本场大会的重磅新闻,阿里云全球首发了可以提供一站式大数据处理能力的平台--"数加",并全新亮相了20款新产品,通过阿里云开放出来,让"普惠大数据"成为可能. DT时代 如何让数据从成

大数据时代已经到来,你了解吗?

一.大数据出现的背景 进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.它已经上过<纽约时报><华尔街日报>的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告. 数 据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识 到数据对企业

大数据时代的教育变革:挑战、趋势及风险规避

2011年5月,美国的麦肯锡咨询公司发布<大数据:创新.竞争和生产力的下一个前沿领域>报告,开启了大数据产业界的先河.这份报告认为,大数据是大小超出了传统数据库软件工具的获取.存储.管理和分析能力的数据集①.国际数据公司据此总结出大数据的四大特征:大量化.多样化.快速化.价值化.相对过去的小数据,大数据体现的是一种快速搜集.处理和利用复杂信息的能力.2012年3月,奥巴马政府发布<大数据研究和发展计划>,将大数据上升为国家战略.2013年被称作大数据时代的元年,信息技术进入一个崭新