避免大数据分析的思维陷阱

大数据分析可以追溯到30年前, 那时在数据分析界, 人们认为数据分析的工具和算法已经可以深度分析出任何东西, 所欠缺的就是数据量。 数据分析师们的说法就是, 如果你能够让我测量一切数据, 追踪一切数据, 从微观的精确到分钟的销售, 精确到每个人的资源消耗,到宏观的变量如利率的变化等, 我就能够告诉你想知道的一切, 这些变量之间的相关性, 它们的变化趋势等等一切的一切。

这种说法一直是主流数据分析界的看法。 到了今天, 数据量已经不成问题了。 互联网的几乎能够找到你需要的任何数据。 想要知道宾夕法尼亚州的工业清洗设备的销售与该州的钢铁厂的设备使用的关系? 没问题, 想要提高用户满意度? 可以把用户投诉数据采用聚类算法进行聚类。 你动动鼠标, 很多数据就能够找到了。

大数据的“罗生门”

好了, 现在的问题, 已经不是数据不够的问题了。 分析师不能再说“我的分析方法没问题, 只要有足够的数据。 ”如今, 数据的丰富程度已经足以满足任何分析方法的需要。 相反, 分析师需要考虑的是“什么样的分析方法最合适”以及“这些数据到底能告诉我们什么”。

这很自然地带来了另一个问题, 这个问题可能是大数据带来的真正问题。 那就是:现有的数据, 多的可以让你想要分析出什么结果, 就能分析出什么结果。

有一句话叫做:“这个世界上有两种谎言, 第一种叫谎言, 第二种叫统计”。 我们的大脑有一种无与伦比的能力, 那就是发现规律的能力(即便是其实没有规律)。

达顿商学院的教授曾经在班上做过这样一个实验:他找了两个学生, 其中一个学生, 用随机数生成器 生成一个数列, 数列里的每个数, 都是1 到10 之间的一个随机整数。 另一个学生, 则写同样长度的一个数列, 数列中的每个数, 这个学生可以随机地写从1到10 之间的一个整数。 教授让第三个学生, 把这两个学生生成的数列给他看。 他几乎每次都能正确地判断出那个数列是真的随机数列, 哪个数列是人工写的。 那些看上去有规律, 或者常有连续重复数字的, 是随机数列。 而人工写成的数列, 则尽量避免出现规律性或者重复性。 为什么呢? 因为我们总潜意识里, 会认为有规律性或者重复性的东西, 一定有它的原因, 就不可能是随机的。 因此, 当我们看到任何有点规律的模式时, 我们就会认为一定有一些非随机的因素。

这种潜意识其实来自于我们在自然界的生存本能。 当你看到草丛晃动的时候, 你宁可认为是有一只老虎在那边, 也比认为是“随机的” 风吹的, 而最后跳出一只老虎来强。

用“小实验”来验证“大数据”

如何才能避免掉入这样的认知陷阱呢? 可以采用达顿商学院教授Jeanne Liedtka所提倡的“小规模实验”的方式。 “小规模实验”与“大数据挖掘”的区别在于, “小规模实验”是特别设计来验证那些凭借分析工具(或者在分析工具帮助下的想象力)所“发现”的规律的正确性。 设计小规模试验的关键, 就是用实例去验证你发现的规律。 如果验证结果是正确的话, 那么规律或模式的可信度就提高了。

为什么要“小规模”呢?因为, 在海量数据加上分析工具, 可以让我们去发现无数的规律和模式, 而对每个规律或模式去验证会投入资源(时间以及金钱)。 通过把实验数据量的规模减小, 我们就可以更快更有效地验证更多的可能性。 这样也就能够加快企业的创新过程。

如何进行“小规模实验”, 要根据具体情况看。 一般来说, 实验会采用大数据分析所用的数据集。 从中取出一部分子集进行分析, 发现的规律, 通过另一部分数据子集进行验证, 如果规律在验证数据子集中也存在的话, 再利用大数据数据集采集的方式采集新的数据, 进一步进行验证。

保险公司Progressive Insurance以及信用卡公司Capital One是两个利用数据分析成功取得竞争优势的公司。 在他们的实践中, 他们就很好地采用了这样的“大数据, 小实验”的方式, 他们意识到我们天生的那种发现“并不存在的”规律的能力的危险性, 因此,他们利用小规模试验的方式, 从而使得他们能够快速有效地进行数据挖掘。

海量数据加上分析工具, 使得数据分析现在是一个很热的话题。 很多企业认为数据分析师能够“点石成金”。 但是,常言道: “人们看到的是他们想要看到的东西。” 今天, 我们有了海量数据和能“发现任何规律”的分析工具后, 还是不能忘记那个最古老的办法——用小规模的实验去验证。 否则的话, 几百万上千万美元的大数据投资, 可能发现的只是我们想象出来的“规律”。

(责任编辑:施柏鹏)

时间: 2024-08-01 13:23:08

避免大数据分析的思维陷阱的相关文章

大数据分析怎样改变高管思维(一)

三十年河东,三十年河西.三十年对一个公司来说,增设新的管理层以应对变幻莫测的商业环境再寻常不.上世纪80年代中期,大公司们还不知道首席财务官是什么玩意儿.然而,伴随着价值管理以及企业与投资人关系日趋透明,拥有一位首席财务官已然成为一件寻常事.而随着品牌建设与客户管理的筹码日益增加,首席市场官也同样会越来越重要,此外,还有首席战略官,用于应对来自市场的挑战. 现在,数据分析的力量正深刻影响着商业格局.抓住数据发展带来的机遇,增加利润,提升生产力甚至打造全新的业务单元,成为了企业的新需求--这不仅需

大数据分析的光荣与陷阱——从谷歌流感趋势谈起

本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大.算法演化.看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴.本文认为,为健康发展大数据产业,我国需要防范大数据自大风险.推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度.审慎评估大数据质量等方面的努力. ◆ ◆ ◆ 一.谷歌流感趋势:未卜先知? "谷歌流感趋势"(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证.2008年11月谷歌

手把手教你建立数据分析的思维框架!

曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则: 不是我觉得,而是数据证明. 这是一道分水岭,"我觉得"是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此.数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用. 作为个人,应该如何建立数据分析思维呢? 建立你的指标体系 在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话

如何建立数据分析的思维框架

曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则: 不是我觉得,而是数据证明 这是一道分水岭,"我觉得"是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此.数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用. 作为个人,应该如何建立数据分析思维呢? 建立你的指标体系 在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:

麦肯锡报告:让高管了解大数据分析

过去三十年,许多公司增设新的管理层以应对变幻莫测的商业环境.上世纪80年代中期,对于多数公司而言,首席财务官还是个陌生的职位.然而,伴随着价值管理以及企业与投资人关系日趋透明,越来越多的公司有了首席财务官.随着品牌建设与客户管理对公司的重要性与日俱增,首席市场官就变得越来越重要,此外,还有不少公司设置了首席战略官,帮助公司应对来自市场的挑战. 现在,数据分析的力量正深刻影响着商业格局.抓住数据发展带来的机遇,增加利润,提升生产力甚至打造全新的业务单元,成为了企业的新需求--这不仅需要信息基础设施

[重磅]清华大数据产业联合会"应用创新"系列第1讲:大数据分析(46PPT)

2014年11月26日晚,清华大数据产业联合会成立仪式在清华大学舜德楼401室召开,联合会依托于清华大学独特的师资和生源优势.清华大学多个院系和学科在大数据相关领域多年的积累与探索,联合大数据产业链中的优秀龙头企业与创新企业,旨在提供大数据产业链的思维碰撞与资源对接平台,促进产.学.研良性互动,以产业需求带动复合型大数据人才的培养,推动大数据生态系统中的各方合作共赢.会议由联合会秘书长王霞主持. 到场的嘉宾有: 清华大学杨斌副校长,清华大学数据科学研究院执行副院长.清华大数据产业联合会会长韩亦舜

论大数据分析的正确方法 应理智对待

据统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息.现在,同样的数据量仅需两天就能够被创造出来,且速度仍在加快.如此庞大的数据量使数据分析复杂化,而大数据中的非结构化数据将加深这种复杂度. 这种情况下,我们需要清楚:什么样的数据应被保存.如果从整体性出发,数据采集和存贮算不上大数据,对海量数据进行分析计算之后的结果才有实际价值.这亦是大数据的价值所在. 关于大数据数量,业内一种较为激进的观点认为,"大数据"的叫法存在问题,因为数据只有"大"是没

基因测序、大数据分析——精准治癌正在成为现实

在中国,至少有6亿人口曾经感染过乙肝病毒,1亿人左右成为病毒携带者,其中,约3000万成为慢性肝炎患者. 江苏安泰生物技术有限公司董事长.泰州新康基因数码有限公司首席科学家闫小君解释说,"究竟属于6亿分之一.1亿分之一或者3000万分之一,甚至更不幸,成为其他肝硬化或者肝癌患者,主要取决于个体免疫系统差异." 若要阻断乙型肝炎病毒持续恶化的可能性,最治本的方法即早期介入,清除病毒.相比药物治疗,精准医疗概念下的"细胞免疫治疗法"正成为焦点. 近年来,致力于此研究的闫

《大数据分析原理与实践》——1.3 什么是大数据分析

1.3 什么是大数据分析 1.大数据分析的定义 数据分析指的是用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 数据分析可以分为三个层次,即描述分析.预测分析和规范分析. 描述分析是探索历史数据并描述发生了什么,这一层次包括发现数据规律的聚类.相关规则挖掘.模式发现和描述数据规律的可视化分析. 预测分析用于预测未来的概率和趋势,例如基于逻辑回归的预测.基于分类器的预测等. 规范分析根据期望的结果.特定场景.资源以及对过去和当前事件的了解