大数据思维离我们有多远?

  

  大数据是一个含糊不明确的词,用来形容一种大规模现象,这种现象目前已经迅速成为企业家、科学家、政府以及媒体追寻的焦点。

大数据令人瞩目

  5 年前,谷歌的一个研究团队在世界上最著名的科学期刊《自然》杂志上发布了一项令人瞩目的研究成果。不需要任何医疗检验结果,该小组竟能够追踪到当时扩散在全美的流感趋势,而且追踪速度甚至比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感的爆发晚了一天,而CDC却花了一周甚至更多时间, 来汇总一张流感传播趋势图。显然,谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。

  谷歌流感趋势不仅快速、准确、成本低,而且不需要任何理论支持。谷歌的工程师们没心思去开发一套假设理论来追究什么样的词条(“流感症状”或者“离我最近的药店”)可能和疾病本身的存在的关键词,而是谷歌团队挑出了5000万条最靠前的词条,然后让搜索法则自行运算,得出的结果。

  谷歌流感趋势成为了商业界、技术界、科学界具有代表意义的成功案例:“大数据”。接来下记者们就会激动的问道:科学界是否也可以向谷歌学习呢?

  正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被那些手里有什么要推销的人信手拈来又随手抛去。有人会特别提到数据组的规模,例如Large Hadron Collider的电脑,一年能够储存15 千兆字节,基本相当于你最喜欢的音乐播放1500年留下的数据。

  吸引了众多公司注意力的“大数据”实际上可以被我们称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台。谷歌流感趋势是建立在已经被寻获的数据上的,就是这种信息吸引我们来到这里。这样的数据组可以更庞大,甚至大过LHC的数据——Facebook。值得注意的是,相对于这些庞大的规模,这些数据的收集实际上很便宜。数据点的随意拼贴,收集起来用于不同的目的,同时可以实时更新。现代社会随着我们的沟通、休闲和商务活动都转移到网络上,网络则渐渐迁徙至移动网络,生活在以一种10年前难以想象的方式,被记录和被量化。

  大数据的拥护者们得出了以下四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:

  1. 数据分析产生了惊人的准确结果;

  2. 每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;

  3. 数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;

  4. 科学或数据模型是不需要的。

  虽然大数据向科学家、企业家以及政府展现出了那么多光明前景,然而,这四条理论完全是出于最乐观最单纯的角度,如果我们忽略了一些过去的经验教训的话,它也注定会让我们失望。

大数据为何让人失望

  在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。过去几年冬天,“谷歌流感趋势”信心满满地提供了一系列迅速准确的流感爆发情况统计信息。但是不知从何时开始,这项无理论依据,使得数据基础丰富的模型渐渐失去它对流感的灵敏嗅觉。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将慢得不着边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。

  问题是谷歌不知道,甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起。谷歌的工程师也并没有试图去搞清楚背后的原因,他们只是简单地寻找数据中的规律。比起前因后果,他们更在乎数据之间的相关性。这种情况在大数据分析中相当常见。

  搞清楚前因后果很困难(几乎是不可能的,有人这么说),但是搞清楚哪些数据是相互关联的则显得成本更低更容易。

  这就是为什么Viktor Mayer- Schönberger和Kenneth Cukier会在他们的著作《大数据》中写道,“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位”。

  一项没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的。如果你不明白表象相关性背后的事情,那么你就不会知道什么原因会导致那种相互关联性的破裂。谷歌流感趋势之所以失败的解释可能是,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群的在线搜索的兴趣。另一个可能性解释就是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息。

  统计学家们在过去200年里一直致力于弄清楚是什么阻挡了我们单纯地通过数据来理解这个世界?虽然当前世界中数据的量更大,传播速度更快,但是我们不能假装过去那些陷阱都已经安全处理了,因为事实上他们并没有消失。

  1936 年,共和党人Alfred Landon参加和总统Franklin Delano Roosevelt一起的总统竞选,一家备受尊重的知名杂志《文学文摘》肩负起了大选结果的预测责任。杂志社发起了一次邮政民调活动,目的在于将测验送达 1000万人民手中,这个数字接近了真实选民数的1/4。回复如洪水般涌来,让人难以想象。杂志社也很享受这种大范围的任务。在8月末期,报道说,“下周,这1000万名选票中的第一批人将开始经历候选人的第一轮,进行三次检验,核实,五次交叉分类和汇总。”

  在统计了两个月内收回的数量惊人的240万张选票后,《文学文摘》杂志最终发布其调查结果:兰登将以55%对41%令人信服地赢得大选,其中有少数投票倾向于第三方候选人。

  但是竞选最终却呈现出非常不同的结果:罗斯福以61%对37%的绝对优势大胜兰登。让《文学文摘》杂志更加郁闷的是,由民意调查先驱人物George Gallup实施的一个小范围的调查得出的结果却和最终投票结果非常接近,成功预测了罗斯福将轻松获胜。由此可见,Gallup先生理解了《文学文摘》杂志社所不能理解的一些事:当谈到数据时,规模不代表一切。

  大体上来说,民意测验建立在投票人群的取样基础上。这就意味着,民意测验专家通常需要解决两件事:取样错误和样本偏差。

  样品错误反应了通过偶然的方式选择样本带来的风险,一个随机选择的民调样本并不能反应人们的真实观点,而民意测验中体现出来的“误差幅度”也体现了这种风险。样本越大,误差幅度越小。一千个受访者的样本数据已经足够成为很多调查目的的样本,Gallup先生的民意测验据说采纳了3000个受访者样本。

  如果说3000个受访者样本带来的调查结果是对的,那么为什么240万个样本却没有呈现更正确的结果呢?

  答案是,取样错误会常常会伴随着一个更危险的因素:样本偏差。取样错误是因为样本的随机选择会导致该选择样本无法反映民众的根本意图;而样本偏差则是样本的选择未经过筛选,而随机的选择。George Gallup不辞辛劳地寻到找了一个无偏差的样本,因为他知道一个无偏差的样本远远比一个数量庞大的样本来得重要。

  相反,一直致力于寻找庞大数据样本的《文学文摘》却忽略了可能产生的样本偏差问题。一方面,它直接将调查表格寄给从汽车登记簿和电话本上获得的人员名单,而这种方式获得的样本,至少在1936年,在体现真实民意方面是比例失调的。另一方面,为了缓解问题的严重性,兰登的支持者们乐意于将自己的答案寄回。这两个偏差因素结合在一起,使得这次《文学文摘》的民意测验泡汤。

  大数据又一次让《文学文摘》面临危机。因为收集到的数据组是那么凌乱,即使想要搞清楚数据中潜伏着偏差因素也是非常困难。此外,也因为这些数据实在太庞大,一些数据分析师似乎认为取样问题根本不值得担心。

  《大数据》一书的合著者,牛津大学网络学院的Viktor Mayer-Schönberger教授告诉我,他所倾向的大数据组的定义是:N=All, 大数据前提下无需取样,我们已拥有具备所有背景的人群。当N=All,就说明的确不存在取样偏差,因为样本中包含了所有人。

  但是N=All是不是对大多数寻获数据的最佳描述?也许不是。“一个人能够拥有所有数据,我对此表示怀疑”,计算机科学家及英国伦敦大学学院数据统计学教授 Patrick Wolfe这么说道。

  Twitter 就是其中的一个例子。原则上,通过记录和分析Twitter上的每一条信息,并通过分析结果来判断公众舆情是有可能的。(事实上,大多数研究人员都在使用那些大数据中的一部分)但是当我们可以看到所有Twitter信息,使用者从整体来看并不具备全体民众的代表性。

  《数字常识》一书的作者及数据分析师Kaiser Fung提醒我们不能简单地认为我们已经将所有重要因素考虑在内了,他说,“N=All,很多时候只是一个针对数据的假设,而不是事实。”

大数据思维尚未形成

  面对大数据,我们必须经常提出这样一个疑问:当面对一大堆杂乱无章的数据信息时更应该理清头绪。

  看看波士顿当地研发的一款智能手机APP Street Bump, 该程序通过手机的加速度传感器来探测路面上的凹坑,而不需要城市工人通过街面巡查来发现凹坑。随着波士顿市民纷纷下载该款APP并且开着车四处转悠,他们的手机自动提示市政厅是否需要对城市街道表面进行修复工作。在这个过程,通过技术解决难题,创造出了信息量庞大的“数据排放”,而排放出的这些数据正好又以一种不可思议的方式解决问题,这在几年前是难以想象的。波士顿市非常骄傲的宣称,“数据为这座城市提供了实时的信息监控,而这些信息又可以用来解决城市问题和规划城市的长期投资项目。”

  但是Street Bump程序实际产生的是一张路面凹坑的城市分布图,这些图更多是系统地分布于年轻富裕的地区,因为在这些地区会有更多人拥有智能手机。Street Bump这款程序给我们提供了一个N=All的情况,也就是说每一部手机探测到的每一个路面凹坑都能被记录下来。这和记录每一个路面凹坑的情况是不一样的。微软的研究院Kate Crawford提出,寻获数据中包含着系统的偏差,需要非常仔细的思考才能发现和纠正。大数据组看起来具有全面综合型,但是N=All常常造成一个相当有迷惑性的错觉。

  极少有案例对于大批量数据的分析最终带来奇迹的。剑桥大学的David Spiegelhalter谈到了谷歌翻译软件,该软件是在分析数以亿计的已翻译作品中,寻找其中可以复制的翻译服务。这就是计算机科学家们称为“机器学习能力”的一个典型例子,这种“学习能力”可以让谷歌翻译软件呈现让人难以置信的处理结果,而不需要预先编入任何语法规则。谷歌翻译就是接近于无理论支撑的,完全由数据驱动的数据运算黑盒子。“这是一项了不起的成就”Spiegelhalter说,因为这项成就是建立在对大数据的明智处理的基础之上。

  但是大数据无法解决那些纠缠了统计学家和科学家们几个世纪的问题:洞察力,情况判断,以及如何进行正确干预,从而改善系统。

  通过大数据得到这样的答案需要统计学发展的大步迈进。

  “现在我们仿佛又回到了西大荒时代,” 伦敦大学学院的Patrick Wolfe说,“聪明上进的人会辗转反侧,会想尽方法利用每一种工具从这些数据中获取有利的价值,但是我们在现在有点盲目冲动。”

  统计学家们正在竭力研究新的方法来抓住大数据中蕴藏的秘密。这样的新方法非常关键,但是需立足于过去古老的统计理论基础之上,这样新方法才能起作用。

  回顾大数据的四个信条,如果我们忽略了主动的错误讯息,那么很容易高估那些让人觉得不可思议的高准确性。“数据中的因果关系已经渐渐撤出作为数据研究基础的基石地位”,如果有人这么宣称,那么没有关系,前提是我们是在一个稳定的环境中进行数据预测。但是如果世界正处于一个巨变的环境下(例如正经历流感的传播)或者如果我们自身希望对现实世界做些改变,那就不能这么说了。“因为N=All, 取样偏差不重要”,这种想法在大多数案例中都不成立。

  大数据时代已经到来,但是大数据思维尚未形成。现在的挑战在于解决新的问题,获得新的答案,但是前提是不要在更大范围内犯过去的统计错误。

时间: 2024-10-02 05:25:48

大数据思维离我们有多远?的相关文章

大数据思维与数据挖掘能力正成为大型商业银行核心竞争力

◆ ◆ ◆ 摘要 大数据能力特有的性质,使其正在成为大型银行真正的核心竞争力.银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键.也是最重要的.数据挖掘对银行竞争力的影响主要表现在客户洞察.营销规划.产品创新.风险管理.流程优化.网点选址和人力资源管理等方面.大数据价值的实现,关键在于挖掘分析能力.数据挖掘可以推动商业银行战略转型.提升运营管理能力.重塑银行企业文化.促进风险经营的精细化专业化.银行数据挖掘能力建设的关键是行动,行动中需要考虑许多因素,包括挖掘分析工具和方法.数据获取

吴军:三个案例透析大数据思维的核心

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果.在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信.而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系. 以下三个案例分别来自药品研发.司法判决与广告投放,从三个不同的角度了解大数据思维的核心. ◆ ◆ ◆ 大数据与药品研发:寻找特效药的方法 比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子.   青霉素的发

三个案例透析大数据思维的核心

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果.在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信. 逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果.在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信.而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系. 以下三个案例分别

大数据思维的十大核心原理

大数据思维是客观存在,大数据思维是新的思维观.用大数据思维方式思考问题,解决问题是当下企业潮流.大数据思维开启了一次重大的时代转型. 大数据思维原理是什么?笔者概括为10项原理. 一.数据核心原理 从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心.Hadoop体系的分布式计算框架已经是"数据"为核心的范式.非结构化数据及分析需求,将改变IT系统的升级方式:

湘雅医院黄伟红教授:希望AI专家多来医院讲课,把大数据思维渗到各个医疗环节

"我们不能只把大数据当做技术活儿,更应该让它形成一种文化.让更多老师和专家进入到医院里讲课,把大数据思维渗透到临床一线.科研一线,渗透到管理者的大脑里去." 在提及大数据和AI对医院的好处时,黄伟红如此说道. 黄伟红现为中南大学湘雅医院"移动医疗"教育部-中国移动联合实验室副主任,该实验室是教育部唯一一个设在医院里的医疗信息化实验室. 雷锋网了解到,实验室成立的目的,主要是为探索交叉学科如何走向科研和技术前沿,以及成果转化. 医院做AI,人最重要,技术次之 黄伟红首

大数据思维——从掷骰子到纸牌屋

有个书评活动,昨天以短信推送到了我的手机,想了想正好赶上年底我想整理一下我的思绪,就搭车发在云栖吧,也算是我第一篇在云栖的原创帖了,呵呵. 虽说做技术多数时间是针对问题找寻解决方法,但我经常觉得做技术也需要一些思考. 讲个段子,说的是一个技术很熟练几乎任何问题都能解决的人去应聘,HR看了他简历上10年经验很满意,就问他你对未来的发展怎么看?他说,我10年只专注做好我的本分,没时间去关心其他.HR摇摇头说:你不是有10年经验,而是一个经验重复了10年 段子只是段子. 一来说自己精通到专注领域内任何

别白瞎了,正宗的大数据思维就在这里!

不仅要看图,文字还有真干货. 上面是100+手机的最新网图,它正在网络中四散传播,当你打开"郝闻郝看"的这几秒,它已经在互联网被传递和转载了N次,这就是力量,让信息不断扩张与自我延伸,同时也造就出更多数据. 按照阿里巴巴副总裁.数据委员会会长车品觉的话说,这是社交数据的常态,它决定着时代大潮下数据分析的特征--冷艳高贵接地气,奔放洋气有深度. 要知道,http://www.aliyun.com/zixun/aggregation/34062.html">Windows9

【好书试读】大数据思维——从掷骰子到纸牌屋

开始试读:https://yqfile.alicdn.com/7af5e5487689f2d32df37ac54ebb6335.pdf 天猫购买链接:大数据思维--从掷骰子到纸牌屋 本书立足于大数据之上的思维模式的普及,让你轻松理解大数据分析的基本模式与方法. 数据分析不在于你掌握了多少先进的软件工具,也不在于你拥有多么高智商的头脑,而是要靠更大视野.更宽角度和更具有逻辑性的思维.本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及.读

以大数据思维推动思想政治教育创新发展

习主席强调:"积极推进政治工作思维理念.运行模式.指导方式.方法手段创新,提高政治工作信息化.法制化.科学化水平.""大数据"作为新型信息技术,已经成为信息时代发展的主题.随着军队信息化建设的不断深入,数据信息增长呈现指数级变化,这些丰富的数据资源为思想政治教育者提供了丰富的条件,我们必须树立大数据思维,借助数据开展思想政治教育. 加强数据采集,让数据成为掌握思想动态的好帮手.如今各种海量数据信息充斥着我们生活的空间,我们必须注重数据采集.强化借鉴运用"数