大数据经典案例与谬误

1 纸牌屋案例
提到大数据在互联网视频领域的商业应用,业界曾经流传着这样一个谎言——通过分析3000万北美用户观看视频的行为数据,发现凯文.斯派西、大卫.芬奇和英剧《纸牌屋》3个关键词的受众存在交集,由此预测将三种元素结合在一起的片子将会大火特火,因此成功推出这部剧集。

大数据

事实上,翻拍英剧《纸牌屋》的创意来自制片方MRC公司。当时这家电影公司正准备转型拍摄电视剧,并打算用自己手里积攒的电影资源大干一场,碰巧公司的一位实习生在飞机上看了这部英国旧剧集。也就是说,促使《纸牌屋》诞生的决定性因素根本就不是“大数据”,而是影视圈里永恒的关键词——“资金”和“人脉”。

2 啤酒尿布案例

“啤酒与尿布”案例是大数据营销的一个神话,据媒体称是发生在美国沃尔玛连锁店超市的真实案例。根据大数据发现的相关性,沃尔玛决定把尿布和啤酒摆在一起出售,这个奇怪的举措使尿布和啤酒的销量双双增加。按理说,这个了不起的发现应该给所有超市带来启示,大家都应纷纷效仿才对,可实际上,如果我们到超市去认真观察一下,就会发现根本没有类似的物品摆放,相近的都很少。追溯这宗噱头十足的新闻的根源,调查者已经证明,这个江湖传说只是数据分析公司的经理人虚构出来的故事。

3 怀孕的女高中生案例

一个更为耸动的大数据案例是“怀孕的女高中生”。据说Target百货公司通过大数据模型建立“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠产品的广告寄发给顾客。《纽约时报》甚至报道了Target的这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他的高中生女儿怀孕了。但在这个成功的营销事件的背后,是这些优惠广告只是随机的发送给用户,其中大量收到优惠广告的妇女并非孕妇,当然她们只是把广告扔进垃圾桶,不会为此闹上门找Target公司理论。

检视另外一些著名的大数据案例案例,我们已经知道波士顿市“颠簸的街道”项目失败了,谷歌流感趋势预测也失败了。其他很多宣称成功运用大数据分析、发现前所未见的规律、取得重大商业成就的案例也都似是而非。

今天,宣告成功应用了大数据的案例还在不断诞生,人们对此已经开始冷静思考。我们要问的是:这些项目中采用了什么样的判别标准?吹嘘大数据神话的人凭什么认定,运用这种又全又大的定量统计新方法更好,而用传统的抽样量化方法或定性方法做研究肯定不如它?

大数据的谬误

1 “数据”概念谬误

对数据概念理解的错误反映了大数据专家们思维的混乱。数据概念有两种含义。一种含义的数据在历史上早就在使用,这是人们拿来比较、衡量大小、多少的概念——即量值、数值、数目字。围绕无知地把这个老概念和另一个数据的新概念混淆。

新的比特数据的概念到了20世纪才诞生。这个基于比特的数据概念是信息科技的独特产物——即数据是比特的集合,数据是结构化的比特团、组。这是对我们当今社会真正重要的一种数据的含义。

如果把比特看作原子,数据就对应着分子,比特和数据是赛博空间里的基本单元,就像原子和分子是实体空间里的基本单元那样。比特形态数量有限,只有两种,具体的数据对象则千姿百态,是比特的无穷无尽的排列组合。与之相对应,原子的数量只有180来种,而原子所可能组成的分子种类则是无限的。

2 “量化”谬误

从旧概念出发,基于量值统计的大数据成为红得发紫的显学。大数据把“量化”研究方法拔高到了无以复加的地位。这种以“数”服人的恶劣风气发端于北美,是从美国向世界各地蔓延的一种传染病——数目字崇拜症。

尼尔.波茨曼早在上世纪六十年代就指出,单纯用量化方法对人进行界定存在严重缺陷。当时在美国用IQ值来测定人的智商曾经非常流行。把活生生的、有丰富侧面的、不断变化着的人简单地用数目字评价会导致认识的异化。今天的大数据虽然描述人的参数很多,其数量种类远远超过当年单一的IQ值,仍然只是对某一时刻、少数侧面的个人属性的抽象概括。以为通过最大限度地量化就能洞悉关于个人和人群的一切,这是一种理性的谵妄。

痴迷于极致的量化将导致我们走向“还原主义”的歧途。就算我们能够用尽当前科技的所有手段,用所有传感器收集人的所有方面的所有数据,那又如何?拿到数据越多的人就越正确吗?拿到了这些全面的数据就能自动掌握真理吗?就像把一个活人分解成同样重量、种类的一堆原子,把这堆原子交给你,你能管这堆东西叫一个人吗?

3 “历史”谬误

过去积攒的统计数据是历史、是浮云,记录下来的旧数字再多、花样再丰富,对未来趋势的预测能力也非常有限,不能太当真。那个著名的关于猪的寓言,就是用来说明这个道理的:

一头生活在猪圈里的猪注意到每天都有饲养员喂它食物,它收集了99天的完备数据,基于大数据统计作出预测:未来每天都有免费的食物提供给自己。在第100天,它的预测得到了证实,一个光彩夺目的大数据成功案例诞生了!但在第101天,它被送进了屠宰场。

大数据许诺通过收集历史数据预测未来。很多自我膨胀的量化统计专家迷信,收集越多越全的数据,就越能保证发现重大的规律,对未来的预测就越准确,越能创造爆炸性的商业成功,越能让企业立于不败之地。

但是这些头脑热到发昏的专家们忘记了,历史都是人的历史。他们没有理解索罗斯根据卡尔.波普尔对历史主义的批判提出的反身性原理——人都是有主观能动性的、易变的。无论是个人还是大范围的群体,一旦他们了解了你作出的预言,他们行动的转向往往会让你的预言破产。谷歌流感趋势预测失败的一个可能原因就在于此。

从那些失败案例人们已经开始认识到,大数据的肤浅预测的作用是可疑的,它根本无法应对黑天鹅事件。就像全世界顶尖的数学天才聚集的华尔街金融机构那样——他们曾经根据各种统计数据成功预测市场走势,并持续挣钱盈利。但时间拉到足够长,一旦发生一个房贷债券市场崩盘这样的小概率事件,数据统计专家们就落得满盘皆输,一次就把之前多年挣到的钱赔光,甚至陷入负债、破产的境地。

4 “大”谬误

“大”方向的错误影响更为深远,也更加致命。大数据反复强调数据量大、数据全,上帝视角的叙事在召唤一种集体潜意识:即只有有权有钱的超级机构才有能力、有资格汇聚一切信息。很显然,大数据所隐喻的,仍然是僵化腐朽的金字塔式的、封建层级化的社会结构。

想想现在,别人许诺在互联网时代提供给你的人人平等的地球村、对等网络和扁平的世界哪去了?想想当年,前苏联的计划经济委员会里的少数精英掌握着每种商品的全部信息,小到火柴和肥皂的产量、库存、运输、成本和售价、销量等等,结果怎么样呢?我们要问,大数据是不是催生了棱镜计划?为什么个人不能保存电缆门(Cablegate)的全部资料?为什么黑客不能获取麦迪逊网站所有用户的邮箱?为什么网民不能随时查阅汽车牌照信息数据库?

量化统计大数据的“大”和“统”背后隐含的观念,是数据必须向一个中心全面集中,是壁垒森严的超级关系数据库、数据中心,是欢欣鼓舞地打造一座赛博世界的全景式监狱,是信息为少数顶尖精英严格控制以保障“隐私和安全”,是排斥随便哪个阿猫阿狗染指数据库的任何副本,以防其图谋不轨——网络草根们存在的意义,只是向大核心贡献自己的所有信息数据。一盘散沙的个人既不该被允许查阅别人的任何信息,甚至也不能了解自己的那些数据被收集和记录。因此不要过于迷信大数据尤其是感念不清,以及只停留在自己嘴巴或这是别人嘴巴上的大数据。真真的要沉下心研究以下大数据究竟有什么组成,怎样适当的应用。避免在神话下被愚化。

本文转自d1net(转载)

时间: 2024-08-01 14:09:53

大数据经典案例与谬误的相关文章

何鸿凌:电信行业大数据应用案例的实践及思考

"中关村大数据产业联盟"推出"大数据100分"论坛,每晚9点开始,于"中关村大数据产业联盟"微信群进行时长100分钟的交流.探讨. [大数据100分]何鸿凌:电信行业大数据应用案例的实践及思考 文:何鸿凌 主持人:中关村大数据产业联盟 副秘书长 陈新河 主讲人:何鸿凌 承办:中关村大数据产业联盟 何鸿凌,中国移动集团公司业务支撑系统部项目经理,高级工程师.1978年生人,2001年获得重庆邮电大学计算机应用学士学位,2014年获得重庆大学软件工程

北京网站辟谣平台公布2013年十大辟谣经典案例

中介交易 SEO诊断 淘宝客 云主机 技术大厅 北京网站辟谣平台公布2013年十大辟谣经典案例 制图:李鹤 互联网健康生态的修复和持续,需要多方合力才能生成.主管部门.互联网站.传统媒体.社会公众等各方力量,应构筑起治理和防范网络谣言的"联合战线" "老外街头扶起中国大妈被讹"."扔鸡蛋砸车抢劫"."雾霾使鲜肺6天变黑肺"--1月16日,经过十天网络投票和专家评议,北京地区网站联合辟谣平台公布2013年度十大辟谣经典案例. 北

北京网站辟谣平台公布十大辟谣经典案例

李鹤互联网健康生态的修复和持续,需要多方合力才能生成.主管部门.互联网站.传统媒体.社会公众等各方力量,应构筑起治理和防范网络谣言的"联合战线""老外街头扶起中国大妈被讹"."扔鸡蛋砸车抢劫"."雾霾使鲜肺6天变黑肺"--1月16日,经过十天网络投票和专家评议,北京地区网站联合辟谣平台公布2013年度十大辟谣经典案例.北京市互联网信息办公室相关负责人介绍,5种谣言在网络上十分常见,也是此次评选的主要对象,包括:易引起广泛误读的

十大辟谣经典案例 互联网健康生态的修复和持续

"老外街头扶起中国大妈被讹"."扔鸡蛋砸车抢劫"."雾霾使鲜肺6天变黑肺"--1月16日,经过十天网络投票和专家评议,北京地区网站联合辟谣平台公布2013年度十大辟谣经典案例. 北京市互联网信息办公室相关负责人介绍,5种谣言在网络上十分常见,也是此次评选的主要对象,包括:易引起广泛误读的生活常识类谣言:易造成公众恐慌的谣言:社会热点事件的发生处置和结果公布中出现的谣言:政策误读类谣言:涉及社会名人的谣言. 下一步,辟谣平台各单位将让这些公众关注度

《Storm技术内幕与大数据实践》一第9章 大数据应用案例

第9章 大数据应用案例 Storm技术内幕与大数据实践 本章中主要介绍了具体的大数据的应用,首先通过例子讲解了如何开发一个计算实时UV(Unique Visitor,是指不同的.通过互联网访问.浏览的自然人)数的程序,随后引入推荐.广告.搜索等常用的大数据应用场景. 在实际推荐系统的生产环境中,关联规则和协同过滤的推荐效果往往比较好,但是利用用户画像,结合时间.天气等上下文信息,可以进行一些更加精准化的推荐,因此基于画像的内容和上下文推荐也是很多公司不可或缺的一部分.大数据发展,离不开互联网广告

八个典型的大数据应用案例

什么是大数据?不要再举例说啤酒和尿布的例子了,Gartner的分析师Doug Laney在讲解大数据案例时提到过8个更有新意更典型的案例,可帮助更清晰的理解大数据时代的到来. 1. 梅西百货的实时定价机制.根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价. 2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台.该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动.这项举措减少了90%的预测模型构建时间.SAP公司

大数据失败案例之七宗罪

要实现大数据分析项目的最佳实践并非易事.正因如此,Gartner研究总监Svetlana Sicular题为"大数据7大失败案例"的报告吸引了思科工程师Karen Liu的注意. "我们正处于开始阶段,想了解下其他人正在做什么,有哪些成功案例."Liu说:"而所有的失败案例,也是我们必须学习并加以警惕的." 很多人有着和Liu一样的想法.Family Dollar Stores Inc.(美国知名折扣零售商,总部位于北卡罗来纳的夏洛特,最近刚被另

大数据时代最大的谬误:不把消费者当人!

各大公司的市场部都流传着关于新员工招聘的传言.应聘者不是计算机专家,就是数学怪才,要么是大数据专家.对于这些人来说,消费者无外乎是千千万万的"0"和"1";网络中的一切购买行为的收集.分析.与定向都以这些二进制数据为基础.但是这些公司或许忘记了一点:消费者也是人. 著名的巧克力制造商费列罗最近从它的铁杆粉丝,萨拉·罗索(Sara Rosso),那里学到一课.她是公司旗下品牌能多益(Nutella)榛子酱的狂热爱好者,在2007年时创立了一年一度的"全球能多

php处理json格式数据经典案例总结_php技巧

本文实例总结了php处理json格式数据的方法.分享给大家供大家参考,具体如下: 1.json简介: 何为json? 简 单地说,JSON 可以将 JavaScript 对象中表示的一组数据转换为字符串,然后就可以在函数之间轻松地传递这个字符串,或者在异步应用程序中将字符串从 Web 客户机传递给服务器端程序. 通俗点讲,它是一种数据的存储格式,就像php序列化后的字符串一样. 它也是一种数据描述,比如:我们将一个数组序列化后存放,就可以很容易的反序列化后应用:json也是如此,只不过它搭建的是