大数据是一个含糊不明确的词,用来形容一种大规模现象,这种现象目前已经迅速成为企业家、科学家、政府以及媒体追寻的焦点。
大数据令人瞩目
5 年前,谷歌的一个研究团队在世界上最著名的科学期刊《自然》杂志上发布了一项令人瞩目的研究成果。不需要任何医疗检验结果,该小组竟能够追踪到当时扩散在全美的流感趋势,而且追踪速度甚至比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感的爆发晚了一天,而CDC却花了一周甚至更多时间, 来汇总一张流感传播趋势图。显然,谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。
谷歌流感趋势不仅快速、准确、成本低,而且不需要任何理论支持。谷歌的工程师们没心思去开发一套假设理论来追究什么样的词条(“流感症状”或者“离我最近的药店”)可能和疾病本身的存在的关键词,而是谷歌团队挑出了5000万条最靠前的词条,然后让搜索法则自行运算,得出的结果。
谷歌流感趋势成为了商业界、技术界、科学界具有代表意义的成功案例:“大数据”。接来下记者们就会激动的问道:科学界是否也可以向谷歌学习呢?
正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被那些手里有什么要推销的人信手拈来又随手抛去。有人会特别提到数据组的规模,例如Large Hadron Collider的电脑,一年能够储存15 千兆字节,基本相当于你最喜欢的音乐播放1500年留下的数据。
吸引了众多公司注意力的“大数据”实际上可以被我们称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台。谷歌流感趋势是建立在已经被寻获的数据上的,就是这种信息吸引我们来到这里。这样的数据组可以更庞大,甚至大过LHC的数据——Facebook。值得注意的是,相对于这些庞大的规模,这些数据的收集实际上很便宜。数据点的随意拼贴,收集起来用于不同的目的,同时可以实时更新。现代社会随着我们的沟通、休闲和商务活动都转移到网络上,网络则渐渐迁徙至移动网络,生活在以一种10年前难以想象的方式,被记录和被量化。
大数据的拥护者们得出了以下四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:
1. 数据分析产生了惊人的准确结果;
2. 每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;
3. 数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;
4. 科学或数据模型是不需要的。
虽然大数据向科学家、企业家以及政府展现出了那么多光明前景,然而,这四条理论完全是出于最乐观最单纯的角度,如果我们忽略了一些过去的经验教训的话,它也注定会让我们失望。
大数据为何让人失望
在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。过去几年冬天,“谷歌流感趋势”信心满满地提供了一系列迅速准确的流感爆发情况统计信息。但是不知从何时开始,这项无理论依据,使得数据基础丰富的模型渐渐失去它对流感的灵敏嗅觉。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将慢得不着边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。
问题是谷歌不知道,甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起。谷歌的工程师也并没有试图去搞清楚背后的原因,他们只是简单地寻找数据中的规律。比起前因后果,他们更在乎数据之间的相关性。这种情况在大数据分析中相当常见。
搞清楚前因后果很困难(几乎是不可能的,有人这么说),但是搞清楚哪些数据是相互关联的则显得成本更低更容易。
这就是为什么Viktor Mayer- Schönberger和Kenneth Cukier会在他们的著作《大数据》中写道,“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位”。
一项没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的。如果你不明白表象相关性背后的事情,那么你就不会知道什么原因会导致那种相互关联性的破裂。谷歌流感趋势之所以失败的解释可能是,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群的在线搜索的兴趣。另一个可能性解释就是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息。
统计学家们在过去200年里一直致力于弄清楚是什么阻挡了我们单纯地通过数据来理解这个世界?虽然当前世界中数据的量更大,传播速度更快,但是我们不能假装过去那些陷阱都已经安全处理了,因为事实上他们并没有消失。
1936 年,共和党人Alfred Landon参加和总统Franklin Delano Roosevelt一起的总统竞选,一家备受尊重的知名杂志《文学文摘》肩负起了大选结果的预测责任。杂志社发起了一次邮政民调活动,目的在于将测验送达 1000万人民手中,这个数字接近了真实选民数的1/4。回复如洪水般涌来,让人难以想象。杂志社也很享受这种大范围的任务。在8月末期,报道说,“下周,这1000万名选票中的第一批人将开始经历候选人的第一轮,进行三次检验,核实,五次交叉分类和汇总。”
在统计了两个月内收回的数量惊人的240万张选票后,《文学文摘》杂志最终发布其调查结果:兰登将以55%对41%令人信服地赢得大选,其中有少数投票倾向于第三方候选人。
但是竞选最终却呈现出非常不同的结果:罗斯福以61%对37%的绝对优势大胜兰登。让《文学文摘》杂志更加郁闷的是,由民意调查先驱人物George Gallup实施的一个小范围的调查得出的结果却和最终投票结果非常接近,成功预测了罗斯福将轻松获胜。由此可见,Gallup先生理解了《文学文摘》杂志社所不能理解的一些事:当谈到数据时,规模不代表一切。
大体上来说,民意测验建立在投票人群的取样基础上。这就意味着,民意测验专家通常需要解决两件事:取样错误和样本偏差。
样品错误反应了通过偶然的方式选择样本带来的风险,一个随机选择的民调样本并不能反应人们的真实观点,而民意测验中体现出来的“误差幅度”也体现了这种风险。样本越大,误差幅度越小。一千个受访者的样本数据已经足够成为很多调查目的的样本,Gallup先生的民意测验据说采纳了3000个受访者样本。
如果说3000个受访者样本带来的调查结果是对的,那么为什么240万个样本却没有呈现更正确的结果呢?
答案是,取样错误会常常会伴随着一个更危险的因素:样本偏差。取样错误是因为样本的随机选择会导致该选择样本无法反映民众的根本意图;而样本偏差则是样本的选择未经过筛选,而随机的选择。George Gallup不辞辛劳地寻到找了一个无偏差的样本,因为他知道一个无偏差的样本远远比一个数量庞大的样本来得重要。
相反,一直致力于寻找庞大数据样本的《文学文摘》却忽略了可能产生的样本偏差问题。一方面,它直接将调查表格寄给从汽车登记簿和电话本上获得的人员名单,而这种方式获得的样本,至少在1936年,在体现真实民意方面是比例失调的。另一方面,为了缓解问题的严重性,兰登的支持者们乐意于将自己的答案寄回。这两个偏差因素结合在一起,使得这次《文学文摘》的民意测验泡汤。
大数据又一次让《文学文摘》面临危机。因为收集到的数据组是那么凌乱,即使想要搞清楚数据中潜伏着偏差因素也是非常困难。此外,也因为这些数据实在太庞大,一些数据分析师似乎认为取样问题根本不值得担心。
《大数据》一书的合著者,牛津大学网络学院的Viktor Mayer-Schönberger教授告诉我,他所倾向的大数据组的定义是:N=All, 大数据前提下无需取样,我们已拥有具备所有背景的人群。当N=All,就说明的确不存在取样偏差,因为样本中包含了所有人。
但是N=All是不是对大多数寻获数据的最佳描述?也许不是。“一个人能够拥有所有数据,我对此表示怀疑”,计算机科学家及英国伦敦大学学院数据统计学教授 Patrick Wolfe这么说道。
Twitter 就是其中的一个例子。原则上,通过记录和分析Twitter上的每一条信息,并通过分析结果来判断公众舆情是有可能的。(事实上,大多数研究人员都在使用那些大数据中的一部分)但是当我们可以看到所有Twitter信息,使用者从整体来看并不具备全体民众的代表性。
《数字常识》一书的作者及数据分析师Kaiser Fung提醒我们不能简单地认为我们已经将所有重要因素考虑在内了,他说,“N=All,很多时候只是一个针对数据的假设,而不是事实。”
大数据思维尚未形成
面对大数据,我们必须经常提出这样一个疑问:当面对一大堆杂乱无章的数据信息时更应该理清头绪。
看看波士顿当地研发的一款智能手机APP Street Bump, 该程序通过手机的加速度传感器来探测路面上的凹坑,而不需要城市工人通过街面巡查来发现凹坑。随着波士顿市民纷纷下载该款APP并且开着车四处转悠,他们的手机自动提示市政厅是否需要对城市街道表面进行修复工作。在这个过程,通过技术解决难题,创造出了信息量庞大的“数据排放”,而排放出的这些数据正好又以一种不可思议的方式解决问题,这在几年前是难以想象的。波士顿市非常骄傲的宣称,“数据为这座城市提供了实时的信息监控,而这些信息又可以用来解决城市问题和规划城市的长期投资项目。”
但是Street Bump程序实际产生的是一张路面凹坑的城市分布图,这些图更多是系统地分布于年轻富裕的地区,因为在这些地区会有更多人拥有智能手机。Street Bump这款程序给我们提供了一个N=All的情况,也就是说每一部手机探测到的每一个路面凹坑都能被记录下来。这和记录每一个路面凹坑的情况是不一样的。微软的研究院Kate Crawford提出,寻获数据中包含着系统的偏差,需要非常仔细的思考才能发现和纠正。大数据组看起来具有全面综合型,但是N=All常常造成一个相当有迷惑性的错觉。
极少有案例对于大批量数据的分析最终带来奇迹的。剑桥大学的David Spiegelhalter谈到了谷歌翻译软件,该软件是在分析数以亿计的已翻译作品中,寻找其中可以复制的翻译服务。这就是计算机科学家们称为“机器学习能力”的一个典型例子,这种“学习能力”可以让谷歌翻译软件呈现让人难以置信的处理结果,而不需要预先编入任何语法规则。谷歌翻译就是接近于无理论支撑的,完全由数据驱动的数据运算黑盒子。“这是一项了不起的成就”Spiegelhalter说,因为这项成就是建立在对大数据的明智处理的基础之上。
但是大数据无法解决那些纠缠了统计学家和科学家们几个世纪的问题:洞察力,情况判断,以及如何进行正确干预,从而改善系统。
通过大数据得到这样的答案需要统计学发展的大步迈进。
“现在我们仿佛又回到了西大荒时代,” 伦敦大学学院的Patrick Wolfe说,“聪明上进的人会辗转反侧,会想尽方法利用每一种工具从这些数据中获取有利的价值,但是我们在现在有点盲目冲动。”
统计学家们正在竭力研究新的方法来抓住大数据中蕴藏的秘密。这样的新方法非常关键,但是需立足于过去古老的统计理论基础之上,这样新方法才能起作用。
回顾大数据的四个信条,如果我们忽略了主动的错误讯息,那么很容易高估那些让人觉得不可思议的高准确性。“数据中的因果关系已经渐渐撤出作为数据研究基础的基石地位”,如果有人这么宣称,那么没有关系,前提是我们是在一个稳定的环境中进行数据预测。但是如果世界正处于一个巨变的环境下(例如正经历流感的传播)或者如果我们自身希望对现实世界做些改变,那就不能这么说了。“因为N=All, 取样偏差不重要”,这种想法在大多数案例中都不成立。
大数据时代已经到来,但是大数据思维尚未形成。现在的挑战在于解决新的问题,获得新的答案,但是前提是不要在更大范围内犯过去的统计错误。