【编者按】这是近一年前[2015-07-28]发表于CSDN的文章这里归集此处仅作存档。
故事06点球成金——数据流PK球探谁更重要
《点球成金》(Moneyball)又是一例数据分析的经典故事
长期以来美国职业棒球队的教练们依赖惯例规则是依据球员的“击球率Batting Average, AVG)”其值等于安打数打数来挑选心仪的球员。而奥克兰“运动家球队”的总经理比利比恩Billy Beane却另辟新径采用上垒率指标(On-Base Percentage, OBP)来挑选球员OBP代表一个球员能够上垒而不是出局的能力。
采用上垒率来选拔人才并非毫无根据。通过精细的数学模型分析比利比恩发现高“上垒率”与比赛的胜负存在某种关联corelation据此他提出了自己的独到见解即一个球员怎样上垒并不重要不管他是地滚球还是三跑垒只要结果是上垒就够了。在广泛的批评和质疑声中比恩通过自己的数据分析创立了“赛伯计量学”Sabermerrics。据此理论比恩依据“高上垒率”选取了自己所需的球员这些球员的身价远不如其他知名球员但比利比恩却能带领这些球员在2002年的美国联盟西部赛事中夺得冠军并取得了20场连胜的战绩。
图5 点球成金图片来源wikipedia.org
这个故事讲得是数量化分析和预测对棒球运动的贡献吴甘沙先生认为它在大数据背景下出现了传播的误区
第一它频繁出现在诸如舍恩伯格《大数据时代》之类的图书中其实这个案例并非大数据案例而是早已存在的数据思维和方法。在“点球成金”案例中的数据套用大数据的4V特征基本上无一符合。
第二《点球成金》无论是小说还是拍出来的同名电影都刻意或无意忽略了球探的作用。从读者/观众的角度来看奥克兰“运动家球队”的总经理比利·比恩完全运用了数据量化分析取代了球探。而事实上在运用这些数据量化工具的同时比恩也增加了球探的费用“军功章里”有数据分析的一半也有球探的一半。
目前的大数据时代就有这么两个流派一派是技术主导派他们提出“万物皆数”要么数字化要么死亡孙正义在对日本企业界的演讲上所言他们认为技术在决策中占有举足轻重地作用。另一派是技术为辅派他们认为技术仅仅是为人服务的属于为人所用的众多工具的一种不可夸大其作用。
针对《点球成金》这个案例比利比恩的拥趸者就属于“数据流党”而更强调球探作用的则归属于“球探党”。
球探党Bill Shanks在其所著的《球探的荣耀论打造王者之师的最勇敢之路》Scout’s Honor: The Bravest Way To Build A Winning Ballteam中【9】对数据流党的分析做出了强有力地回应。他认为球探对运动员定性指标(如竞争性、抗压力、意志力勤奋程度等)的衡量是少数结构化数据如上垒率等指标无法量化刻画的。
和《点球成金》观点针锋相对的是Bill Shanks更认可球探的作用他把球探的作用命名为“勇士”哲学。对于勇士来说数据分析只是众多“刀枪棍棒”兵刃中的一种无需奉之如圭臬真正能“攻城略地”的还是需要勇士。比如说运动家棒球队虽然在数据分析的指导下获得了震惊业界的好成绩然而他们并没有取得季后赛的胜利也没有夺取世界冠军这说明数据分析虽重要但人的作用更重要
从第01故事的分析中我们知道大数据分析的第一层作用就是面向过去发现潜藏在数据表面之下的历史规律或模式也就是说达到描述性分析。而为了让读者相信数据分析的能力灌输一些“心灵鸡汤或称洗脑”是少不了的哪怕它是假的
故事07啤酒和尿布经典故事是伪造的你知道吗
这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后 研究人员突然发现 跟尿布一起搭配购买最多的商品竟是啤酒
尿布和啤酒听起来风马牛不相及但这是对历史数据进行挖掘的结果反映的是数据层面的规律。这种关系令人费解但经过跟踪调查研究人员发现一些年轻的爸爸常到超市去购买婴儿尿布有30~40的新爸爸会顺便买点啤酒犒劳自己。随后沃尔玛对啤酒和尿布进行了捆绑销售不出意料销售量双双增加。
上面这个案例出自于涂子沛先生的所著的大数据畅销书《数据之巅》在这个案例中要情节有情节要数据有数据誓言旦旦不容你置疑。但是这个故事虽经典但是让你意想不到的是
1.案例是编造的
这个经典的“啤酒和尿布” (Beer and Diapers)的案例不仅是《大数据》类图书的常客事实上它更是无数次流连于“数据挖掘”之类的书籍中特别是用来解释“关联规则Association Rule”的概念更是“居家旅行必备之良药周星驰语”。当前基本上所有讲大数据应用都会捎带讲上这个经典案例要求大家多研究“相关性”少研究因果关系但实在扫兴的是这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽但信不得
- 实践是检验真理的唯一标准。如果这个故事是真的按理说应该给超级市场以无限启发才对可实际上不管是中国还是在美国在超市里面观察一下就会发现根本没有类似的物品摆放相近的都很少。
- 故事性强事出有因。据吴甘沙先生透露它是Teradata公司一位经理编出来的“故事”目的是让数据分析看起来更有力更有趣而在历史上从没有发生过感兴趣的读者可以自己参阅文献。但公平地讲这个故事对数据挖掘的普及意义重大仅从教育意义上看仍不失为一个好故事。
2.相关性并非什么大事
即便真的有这个案例也不说明数据分析出来的“相关性”有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是趾高气扬的因果关系光芒不再卑微的相关关系将被“翻身做主人”知道“是什么”就够了没必要知道“为什么”。但需要我们更为深入了解的事实是
- “要相关不要因果”这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》Wired主编Chris Anderson 2008年他在题为 “理论的终结数据洪流让科学方法依然过时End of Theory: the Data Deluge Makes the Scientific Method Obsolete【9】” 文章中率先提出在PB时代我们可以说有相关性足够了Petabytes allow us to say: "Correlation is enough"。
图6 连线杂志理论的终结
- “要相关不要因果”的观点并不受学术界待见。甚至《大数据时代》的中文版翻译者周涛亦在序言里说“放弃对因果关系的追求是人类的堕落”。对于这个观点李国杰院士认为【10】在大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是相关性本身并没有多大价值关键是找对了“相关性”背后的理由才是新知识或新发现。
大数据分析的第二个功能或者说更为的核心功能在于预测。预测主要用于对未来进行筹划大到产业的布局小到流感的预警均可用预测。但是对未来的预测能准吗
故事08谷歌流感预测预测是如何失效的
2009年2月谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文【11】《利用搜索引擎查询数据检测禽流感流行趋势》并设计了大名鼎鼎的流感预测系统Google Flu TrendsGFT访问网址为www.google.org/flutrends/。
GFT预测H1N1流感的原理非常朴素如果在某一个区域某一个时间段有大量的有关流感的搜索指令那么就可能存在一种潜在的关联在这个地区就有很大可能性存在对应的流感人群相关部门就值得发布流感预警信息。
GFT监测并预测流感趋势的过程仅需一天有时甚至可缩短至数个小时。相比而言美国疾病控制与预防中心Center for Disease Control and PreventionCDC同样也能利用采集来的流感数据发布预警信息。但CDC的流感预测结果通常需要滞后两周左右才能得以发布。但对于一种飞速传播的疾病如禽流感等疫情预警滞后发布后果可能是致命的。
GFT一度被认为是大数据预测未来的经典案例给很多人打开了一扇未来的窗口。根据这个故事大数据的布道者们给出了4个令自己满意的结论
- 由于所有数据点都被捕捉到故传统的抽样统计的方法完全可以被淘汰。换句话说做到了“n=All”
- 无需再寻找现象背后的原因只需要知道某两者之间的统计相关性就够用了。针对这个案例只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。
- 不再需要统计学模型只要有大量的数据就能完成分析目的印证了《连线》主编Chris Anderson 提出的“理论终结”的论调。
- 大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。
但据英国《财经时报》FT援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3]这四条 “完全是胡说八道complete bollocks. Absolute nonsense”。
针对前3条观点的不足之处前文故事已经涉及到了不再赘言。针对第4条我们有必要再解析一下——GFT预测是如何失效的
谷歌工程师们开发的GFT可谓轰动一时但好景不长相关论文发表4年后2013年2月13日《自然》发文指出【12】在最近2012年12月的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重然而疾控中心CDC在汇总各地数据以后发现谷歌的预测结果比实际情况要夸大了几乎一倍如图7所示。
图7 GFT流感预测失准 图片来源自然期刊
研究人员发现问题的根源在于谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联也没有试图去搞清楚关联背后的原因只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性谷歌工程师们不断地微调预测算法但GFT每一次算法微调都是为了修补之前的测不准但每次修补又都造成了另外的误差。
谷歌疫情之所以会误报还因为大数据分析中存在“预测即干涉”的问题。量子物理创始人之一维尔纳海森堡Werner Heisenberg曾在1927年的一篇论文中指出在量子世界中测量粒子位置必然会影响粒子的速度即存在“测不准原理”。也就是说在量子尺度的微距世界中“测量即干涉”。如今在媒体热炒的“大数据”世界中类似于“测不准原理”即存在“预测即干涉”悖论。
这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处当年的大白菜卖价不错历史数据预计明年的卖价也不错预测于是众多菜农在这个预测的指导下第二年都去种大白菜采取行动结果是菜多价贱伤农预测失败。
进一步分析就可发现GFT预测失准在很大程度上是因为一旦GFT提到了有疫情立刻会有媒体报道就会引发更多相关信息搜索反过来强化了GFT对疫情的判定。这样下去算法无论怎么修补都无法改变其愈发不准确的命运。
对GFT预测更猛烈的攻击来自著名期刊《科学》【13】。2014年3月该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌流感的寓言大数据分析中的陷阱The parable of Google Flu: traps in big data analysis”他们对谷歌疫情预测不准的问题做了更为深入地调查也讨论了大数据的“陷阱”本质。《科学》一文作者认为大数据的分析是很复杂的但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密难免会出现失准的情况作者以谷歌流感趋势失准为例指出“大数据傲慢(Big Data Hubris)”是问题的根源。
《科学》一文还认为“大数据傲慢(Big Data Hubris)”还体现在存在一种错误的思维方式即误认为大数据模式分析出的“统计学相关性”可以直接取代事物之间真实的因果和联系从而过度应用这种技术。这就对那些过度推崇“要相关不要因果”人群提出了很及时的警告。毕竟在某个时间很多人搜索“流感”不一定代表流感真的暴发完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。
果壳网有一篇对《科学》一文深度解读的文章“数据并非越大越好谷歌流感趋势错在哪儿了”感兴趣的读者可以前去围观。
苏萌、柏林森和周涛等人合著的《个性化商业的未来》【14】他们强调“个人化”服务是未来最有前途的商业模式。可这里有个问题提供“个人化”服务就需要了解顾客的“个性化信息”如果顾客许可使用个人信息的那么这种个性化服务是贴心的如果没有许可呢
下面这个故事就是一则有关商品个性化推荐的但它体现出来的是数据分析的智慧还是愚蠢呢
故事09Target超市预测女孩怀孕“大数据”智慧还是愚蠢
2012年2月16日《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》How Companies Learn Your Secrets的报道【15】。文中介绍了这样一个故事
一天一位男性顾客怒气冲冲地来到一家折扣连锁店Target中文常译作“塔吉特”为仅次于沃尔玛的全美第二大零售商向经理投诉因为该店竟然给他还在读高中的的女儿邮寄婴儿服装和孕妇服装的优惠券。
但随后这位父亲与女儿进一步沟通发现自己女儿真的已经怀孕了。于是致电Target道歉说他误解商店了女儿的预产期是8月份。
图8 《纽约时报》这些公司是如何知道您的秘密的
一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢这里就需要用到“关联规则+预测推荐”技术。
事实上每位顾客初次到Target刷卡消费时都会自动获得一个唯一顾客识别编号ID。以后顾客再次光临Target消费时计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料Target便能形成一个庞大数据库运用于分析顾客的喜好与需求。
有了数据特别是有了“大”容量的数据后面的问题就简单了。Target的数据分析师开发了很多预测模型其中怀孕预测模型pregnancy-prediction model就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品就预测到了这为女顾客可能怀孕了而怀孕了未来就有可能需要购置婴儿服装和孕妇服装多么贴心的商店啊。但是需要我们注意的是
1.这是“大”数据的傲慢而非聪慧。
由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿因此这个故事往往被用来作为“数据比人更了解人”的证明并在当下被用来论证大数据的功力。国内有的新闻媒体对大数据的理解似是而非针对这个案例的报道标题就是《大数据的功力比父亲更了解女儿冲击大卖场》【16】。大数据的无所不能的“傲慢”跃然纸上。
或许“旁观者清”信息领域外的上海金融与法律研究院研究员刘远举认为【17】这案例并不能说明数据比人更“聪慧”更了解人恰好相反这证明计算机是“愚蠢的”还在读高中的女儿显然想保护自己的隐私并不想父亲知道但“愚蠢的”计算机却自作主张把孕妇优惠卷寄寄到了她家里结果被爸爸逮个正着。
这正是大数据的另一种傲慢——好像有了大数据就可以“君临天下”对顾客的理解就可做到出神入化对顾客的隐私就可以肆无忌惮。
2.这并非大数据的案例
进一步分析我们可以发现实际上这个例子并不属于大数据的案例它不需要太强的计算能力甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲其实是不恰当的。
大数据一般要具备典型的4个V特征Target收集的消费数据属于典型的结构化数据即使数量再大也仅仅满足4V特征之一——Volume体积大。但是“数据大”不等于“大数据”。如果光拼体积“大”那么早在20年前天文、物理和生物信息学的数据也够得上是“大数据”了。《纽约时报》的原文【15】非常“厚道”通篇没有提及“big data大数据” 字样。
3.更重要的是这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”。
数据挖掘界的数据分析师、咨询师们有时候同样也需要 “心灵鸡汤”励志自己忽悠客户。对此美国纽约大学统计学教授Kaiser Fung认为[3]很多人在看到这个故事时都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人都是孕妇。但这是不可能的更为实际的情况是孕妇之所以能收到这些购物券是因为Target给非常多客户都邮寄了这种购物券。在众多客户中碰巧有那么一位高中女生“不太可能但却又真地”怀孕了碰巧那位父亲发现并投诉了碰巧那位父亲发现自己错了并道歉了这么多巧合“无巧不成书”。因为极具有故事性所以大家都爱听。
各位读者在相信Target这类读心术般的故事之前首先应该先想想这类商家的预测命中率到底有多高。这里并不说数据分析一无是处相反数据分析极具商业价值即使能够把“直邮Direct MailDM”的准确度提高一点点哪怕是1%对商家而言都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。
商家能够提供个性化服务确实很贴心但倘若在利益的趋势下商家对顾客的个性化信息运用不当或越界就会给顾客带来不能承受的隐私之痛。下面我们聊聊有关大数据隐私的故事。
故事10你的一夜情我知道——大数据的隐私之痛
Uber优步著名的打车软件服务公司乘客可以通过发送短信或是使用移动应用程序来预约车辆利用移动应用程序时还可以追踪车辆的位置曾在官网上发布一篇题为“荣耀之旅Rides of GloryRoG”的博客。文中写到“我知道我们不是你们生命中唯一的爱人我们也知道你们会在别的什么地方寻找爱情we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere。” Uber称作的“荣耀之旅(RoG”——实际上就是所谓的一夜情one-night stand代名词。
Uber利用数据分析技术专门筛选出那些在晚上10点到凌晨4点之间的用车服务并且这些客户会在四到六小时之后这段时间足够完成一场快速的RoG在距离上一次下车地点大约1/10英里约160米以内的地方再次叫车。
图9 美国大城市一夜情发生率的对比图片来源Uber
根据对这些数据的分析Uber推断出那些发生一夜情的时间和地点并将这些地点在纽约NYC、旧金山SF、波士顿Boston以及其他美国城市的地图上进行标注得出一夜情频繁的高发区。数据分析发现波士顿位于美国“一夜情”之首而纽约人则显得比较保守“一夜情”的比率仅仅为波士顿的1/5。在时间节点上一夜情“发作”的高频发段是在周五和周六晚上如果你的另一半在这个时间点上说自己工作忙要加班你就要“悠着点”相信。
当然Uber此处虽多为开玩笑之举但也确实严重侵犯了用户的隐私在遭到了很多用户及媒体的的抗议例如《纽约时报》发表题为《我们不能信任优步》We Can’t Trust Uber【18】。
在遭到用户和媒体抗议以后Uber迅速删除了这篇博客但在这个数字时代一旦上网“侯门一入深似海”踏雪无痕梦难成”。感兴趣的读者仍可访问互联网文档收录网站https://archive.org/找到这篇文章。
不可否认的是大数据时代的到来为我们的学习、生活带来诸多便利。但是收之桑榆失之东隅。任何事情都有两面性。目前人的行为诸如购物、乘车、甚至游戏等已经被数字化了隐私已经无处可藏不论是美国斯诺登“棱镜门”监听项目的曝光还是层出不穷的诸如Uber等公司企业泄露客户资料事件都向我们发出大数据时代下个人隐私保护的预警。
中国著名生命伦理学家邱仁宗先生认为【19】大数据技术与所有技术一样它本身无所谓“好”“坏”故它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值取向的大数据犹技术如一把双刃剑它可以给我们的生活、科研带来便利但也能带来诸如侵犯隐私的消极影响。
完善的立法对保护用户隐私来说极其重要。例如规定只有用户需要个性化服务定制的时候提出需求大数据公司才能调用该用户的信息其他情况下的信息调用都采取匿名的方式否则就视作侵犯隐私。
网上有个以“恐怖的大数据”为题的段子用定披萨饼的流程把用户的隐私披露地“一览无遗”虽有夸张成分但在大数据时代隐私保护的必要性已经不容置疑了。
小结
《旧约·箴言篇》18章17节里有句话“先诉情由的似乎有理。但邻舍来到就察出实情”。
随着诸如舍恩伯格教授的《大数据时代》、涂子沛先生的《大数据》等大作的面世对世人带来了“醍醐灌顶”式的教育洗礼在教育民众和政府官员接纳大数据时代的普及意义上这些著作居功至伟。他们书中的很多思维已被很多大数据的拥趸者奉为圭臬但任何事情都有两面性一味的热捧就会带来认知的偏颇。
诸如《纽约时报》、《财经时报》、《自然》及《科学》等重量级的反思“邻舍”的到临能让我们对“大数据”有更为客观的认知。从他们给出的一各个小故事小案例或小段子中可以促使我们对大数据的热炒有所反思从而告诫我们之间一定保持清醒头脑批判性地接受大数据布道者的思维切不可将其当作放之四海而皆准的真理。对大数据的过分依赖就有可能重蹈伊卡洛斯Icarus的覆辙。
图 10 伊卡洛斯之殇图片来源百度百科
在希腊神话中伊卡洛斯是个自负的天神他是代达罗斯的儿子一天在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时由于他过分相信自己的飞行技故而飞得太高双翼上的蜡在太阳照射下融化羽翼脱落最终导致自己葬身大海。
大数据技术就犹如那 “蜡和羽毛”做的翅膀它可以助我们飞得更高但倘若过分依赖它就有葬身大海的风险。我们要学会如何让大数据为我所用而不是成为大数据的奴隶。
参考文献部分链接需翻墙才能访问
[8] Shanks B. Scout's honor: The bravest way to build a winning team[M]. Sterling & Ross Pub Incorporated, 2005.
[9] Chris Anderson. End of Theory: the Data Deluge Makes the Scientific Method Obsolete.Wired. [10] 李国杰. 大数据研究的科学价值[J]. 中国计算机学会通讯, 2012, 8(9): 8-15.
[11] Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014
[12] Declan Butler. When Google got flu wrong. Nature news.
[13] Lazer D, Kennedy R, King G, et al. The parable of Google Flu: traps in big data analysis[J]. Science, 2014, 343(14 March). [14]苏萌,柏林森,周涛.个性化商业的未来[M]. 机械工业出版社, 2012.
[15] Charles Duhigg. How Companies Learn Your Secrets. [16]刘戈央视经济频道《今日观察》观察员. 中外管理. 大数据时代重新定义商业.
[17] 刘远举.大数据的傲慢.百度百家. [18] Zeynep Tufekci and Brayden Kingdec. We Can’t Trust UberNew York Times . 2014-07.
[19]邱仁宗, 黄雯, 翟晓梅. 大数据技术的伦理问题[J]. 科学与社会, 2014, 4(1): 36-48.
【作者简介】张玉宏著有《品味大数据》一书。