导语:在大数据时代,我们只需要知道“什么”,而不需要知道“为什么”。但大数据真的给科学带来很大的变革吗?它是否有传说的那样神奇呢?还是这仅仅是一场过度宣传所引出的幻境呢?作者告诉你,大数据时代还没有真正到来。
如果不考虑目前大数据已取得的成就的话,大数据会给科学带来彻底的变革吗?它会帮助我们建设一个更加美好的世界吗?
在回答这个问题之前,让我们先在时间上退回一点儿。近期,我被邀在英国海伊小镇(Hay-on-Wye)举行的“追寻光之源”(How the Light Gets In)文化艺术节上发言。文化节的主办方将我安顿在美丽的大宾顿庄园(Great Brampton House)中。在那里,我遇到了其他文化节的被邀演讲者,如物理学家George Ellis、Carlo Rovelli、Carlos Frenk、Tara Shears、生物学家Rupert Sheldrake、精神病学家David Nutt,以及记者Colin Tudg)与David Malone等。(我希望尽快地与埃利斯和谢尔德雷克进行交流。)
一天下午,我参加了一场有关大数据的公开辩论,一同参加的还有记者Kenneth Cukier与Angela Saini,以及社会学家Laurie Taylor。文化节的手册为我们的这次辩论环节做了这样的宣传:“在一个可以收集到浩如星海的数据量的时代,我们会用复杂的真实数据模型来代替简洁的理论吗?大数据是否意味着理论的终结?”这些问题是由《经济学人》(The Economist)数据编辑Cukier和牛津大学网络治理教授Viktor Mayer-Schonberger共同提出,发表在他们2013年的畅销书《大数据:一场改变人类生活、工作与思维的革命》中。
他们在一篇基于这部著作的文章里写道:“目前,有远超过从前的大量数据信息在我们周围进行传播,大数据正是伴随着着这一现实条件崭露头脚的,而且它还被赋予了很多令人意想不到的用途。尽管网络使数据信息的收集和分享更加便捷,但大数据并不能等同于互联网。相比于互联网,大数据关注的内容要远超普通的沟通和交流。大数据的理念是,通过分析大体量的数据信息,我们可以理解很多只依靠少量数据信息所不能理解的事情。”
Cukier 和Mayer-Schonberger最有趣的观点就是,大数据将使我们可以在不必要理解问题的情况下解决问题。他们在文章中写道,大数据将会把研究人员关注问题的重点从“因果关系转移到相互联系”上。前《连线》(WIRED)杂志编辑Chris Anderson在他2008年的文章“理论的终结”里也提出过相似的言论,即“这代表着思维方式的改变,从试图理解这个世界运作方式的深层原因到只是简单地了解事件间的相互联系,然后利用这种联系解决问题。”
如果大数据意味着一种数字技术的话,那么我热爱大数据。数字技术已经改变了记者以及科学家采集、分析和传播信息的方式。举个例子来看,我可以用电脑在谷歌上搜索到Cukier的信息,连家门都不用出,还可以瞬间找到其他读者对他的书评,甚至包括《纽约时报》上性情古怪的评论员Michiko Kakutani出人意料的好评。
不仅如此,Cukier还认为仅仅通过挖掘数据之间的相关性,科学家可以得到很多结论,这也是正确的。例如,在一个半世纪以前,流行病学研究就表明,在吸烟和癌症之间存在很强的相关性。但到目前为止,我们依然无法确切地理解吸烟引发癌症的机制。然而,这种相关性的发现在过去的几十年里引发一场又一场的反烟运动。毫无争议的是,这些运动比我们在检测和治疗手段方面取得的所有进步都更加明显有效地减少了癌症的发病率(正如我在最近一篇文章中指出的那样)。
同时,我也同意Cukier的另一个观点,即理论可能会阻碍问题的解决。打个比方来说,你是一名法官,正纠结于已被证明有罪的杀人犯是否会再次作案。你可能会去咨询精神病学家或者其他所谓的心理学专家,让他们基于自己最喜欢的心理学派理论来做一下预测。但是你还不如使用保险公司用来计算保费的那一套方法,看看跟你这位杀人犯背景相似的罪犯的再次犯罪率就可以了。
然而,基于很多原因,我对Cukier和其他支持者对大数据的热情依然不敢苟同,甚至感到有些厌烦。首先,他们的说辞让我想起混沌学以其后继者“复杂性理论”的研究者的炒作。对于混沌和复杂性,我在自己1996年的书《科学的终结》里将两者归并到一起,创造了一个新的名词“混杂学”。两个领域都承诺,如果利用运算速度更快的电脑以及更加复杂的软件,科学家们可以分析解答那些被古板乏味的还原论者的方法所限制的问题。某些混杂学家希望能够发现一个新理论,可以解释一系列复杂现象的“自组织”系统——甚至是一个“反熵”力。
然而,这样的发现从未发生过,而且Cukier和Schonberger所设想的那种实际中的的进展同样也没有出现。就拿基因学来说,由于电脑技术和其它技术的进步,人类基因组计划以低于预算的花费和时间于2003年提前完成。提取、分析人类和其他生物体基因数据的成本一直以来都在不断下降。
但令人失望的是,所有这些进展并没有产生多少医学上的进步。在写作本文时,美国没有一种基因疗法被批准投入市场,而欧洲也仅通过了一项。人们对寻找调配复杂行为特征及机体紊乱的特定基因所作出的努力一直未取得成果,对癌症发动的战争也同样从未胜利。
和遗传学家一样,神经学家也同样淹没在数据里。尽管扫描仪及其他工具的功能越来越强大,但是神经学家依然无法准确解释大脑产生思维的原因,或者思维为什么会经常出现问题。美国心理健康研究所(National Institute of Mental Health)的主任Thomas Insel最近提议,应该彻底反思我们对精神分裂症、抑郁症及其它精神疾病的定义与诊断方法。我们对这些疾病的治疗手段依然是原始得可怕。
2008 年的经济崩溃提供了一个实际检验大数据的机会。华尔街的银行家们拥有计算速度最快的电脑、最精密复杂的软件以及金钱可以买到的最大的数据库,但许多人并没有预测到那年的经济崩溃。所以到目前为止,实践证明那些认为大数据能使经济学和其他社会科学变成真正科学(精确且具有预测性)的美好愿望依然是一个幻想。
我希望并且坚定地认为,不断进步的信息技术在将来的某一天会真正地给医学、社会科学以及其它领域带来革命性的进步。但在那一天到来之前,让我们还是暂且抑制一下对大数据的盲目炒作与过度宣传吧。