透过现象看本质很重要

  在上个世纪90年代的一个初夏的傍晚,微风拂面,知了不停地鸣叫。在校园里,每个教室里都传出了沙沙的声音,一个个表情木讷的高三学生正在题海中遨游。教室的最后一排,一个扎着马尾的清秀姑娘给旁边的男孩传了一张纸条,上面写着“听说电影院今天演《泰坦尼克号》,我们逃课去看吧!”

  男孩看到纸条后,脸上泛出了淡淡的红晕,一脸亢奋地回了张纸条,“我听说人民街的录像厅今天放最新的《古惑仔》啊,我们去看那个吧。”

  那天晚上,这一男一女在男生的坚持下,还是去看了《古惑仔》。从第二天开始,女生就开始亲热地喊他“兄弟”……两个人再也没有然后了。

  很多时候,如果不能透过现象看穿本质,那么一定会摔得很惨,追姑娘是这样,玩数据也是这样。

  一、从砍人神父看数据解读的不同角度

  同一个人,在其他不同人眼中的形象是千奇百怪的,很难做到整齐划一。而同一个画面、同一个数据,都静悄悄地呆在原地,不同的角度会带来截然不同的效果。例如同一件淘宝服装,显示器上的效果和收到货之后的效果很难保持一致,如上图同事肉身所示。

  例如在古惑仔《只手遮天》里,林神父在球场上挺身而出直面乌鸦,一声令下杀出了几十个手持菜刀拖把的邻居,说出了他那经典台词“我传道二十多年,叫大家信耶稣大家不一定会,但是让大家砍人他们一定会照办的。”

  那么就拿这个场景定格。不同的媒体如果给这一场景取标题的话,《读者》一定是“牧师见义勇为背后的哲理小故事”,《知音》一定是“浓浓的大爱啊为那般,俊雅牧师为失足少年撑起一片天”,法制版一定是“管制刀具何时禁?和平街区惊现24把砍刀”,而地铁上的街头小报一定是“禽兽神父露出真正獠牙 一声令下欲血洗东兴”。

  数据是死的,人是活的。学会合理地解读将是必备技能,特别是对于像我这般的打工屌丝来说,必须要学会找到数据最有用的解读切入点。

  二、从大天二被阴看数据的首要条件

  大天二在古惑仔前三部中一直不显山不露水,而扮演者谢天华在当年也还只是一个小字辈。但是在第四集一开始,当大飞把妹妹嫁给他之后,他的地位在洪兴内部飙升,也正是这种地位的变化,让他准备帮山鸡争屯门扛把子砍生番的时候,没有能冷静地分析到手的数据。

  当内线告诉他,生番每天都会在鱼摊打麻将身边只有三四个人的时候,大天二没有从多个渠道去验证数据的准确性,而是豪气十足地带着四个人就要去搞定生番,虽然出发前拜了拜关二爷,但是别忘了,关二爷当年也因为忽视江边烽火台情报网而被人砍了脑袋。

  生番身边果然只有三个人陪他打麻将,但是旁边的屋子里窜出来五十多个人,大天二被人按在水池中挑断了手筋脚筋,如果不是大飞,那晚他就已经横尸街头。

  所以,对于研究数据的人来说,正确的数据比大量的数据更有用。这里的正确,不仅仅指结论正确,也包括取样正确、分析方向正确。

  在2013年,大数据成为了IT界最火热的词汇,哪个公司如果不说自己会大数据分析,简直没有脸在行业内行走。但是,如果盲目地追求数据量的大,而忽视了数据的对,那么就容易在错误的道路上越走越远。

  在各种数据统计教材中,有一个案例被反复提及,那就是当年罗斯福竞选总统时,美国著名期刊《文学文摘》放出了1000万份读者调查表,并做了大量的电话调查,最后得出的结论是共和党的兰登将以57%对43%的绝对优势战胜民主党的罗斯福。而最后的结果却是罗斯福以62%的支持率得以连任,给《文学文摘》一记响亮的耳光。

  在这个例子里,是因为样本的数量不够吗?发出1000万份调查,回收240万份数据,同样的数据量放在今日都堪称庞大。核心问题在于样本的选择出现了无意识的偏差,1000万《文学文摘》读者并不能代表全体美国人的特征,乐于参与调查的240万人跟剩下的760万人也没有相似性。

  由此可以看出,样本数越大的数据分析,如果出现偏差的话,造成的危害越大。例如如果在10万个被派出所抓获的嫖客中做一个调查,问我国是否应该放开性交易,那么最后可能媒体出来的标题纷纷是《人性啊呼唤解放,99%中国人力争性交易合法化》。

  三、从包皮被色诱看数据分析的精准需求

  在大天二藏起来养伤的时候,东兴乌鸦手下的四眼仔为了找到大天二的行踪,派出了自己那丰满黄毛小太妹去色诱包皮,这一招就叫做精准。因为他如果派出几百人去满大街打听,性价比低又容易打草惊蛇,如果去色诱陈浩南山鸡,他们压根看不上这种胸大无脑的粗俗小太妹。而包皮呢?作为能接触到大天二信息的核心骨干,正是最好的突破点。

  这就是在开始做任何数据分析之前,一定要先清楚自己最想要什么,得到想要的结果哪些数据是必需的,不盲目地扩展维度,那样的话只会让分析结果混乱不堪。

  不管是对于一个网站还是对于一个应用来说,会有很多种数据指标,先要想清楚自己最关注哪个指标,然后再看跟这一指标强相关的是哪几个数据,最后再得出结论和运营方案。例如对于网站,老板最关注的是UV数据,那么在做方案的时候就要关注到站外流量最大的导入方、SEO关键词、第三方平台的分享量等。如果老板最关注PV数据,那么运营就需要注意用户浏览页面数、用户停留时间、用户的二跳页面等等。

  四、我不是教你诈之数据陷阱

  在很多人眼中,数据是最公正最客观最铁面无私的,恨不得把数据提升到顶礼膜拜的地步。但数据其实就是工作的一个伙伴,好的数据就是神一样的队友,不好的数据就是猪一样的队友。数据分析本身没有对错之分,只有合适不合适,合理不合理。(在基本的数学运算无误的情况下)

  美国佐治亚州曾经在2011年和2012年陆续宣布了对亚特兰大市35位教育工作者的65项指控,这些人中,大部分是校长、年级主任。指控主要集中在考试舞弊。因为亚特兰大市从2005年开始,学生的各项成绩有了阶梯性的进步,最开始所有人都夸奖新上任的教育主管教导有方。

  但是后来,州教育部门在做数据统计的时候,突然发现亚特兰大市学生的答卷上,由错改对的比例远远大于其他地方的学生。要知道从概率上来说,一个学生的答题因为其突然打通任督二脉,由错改对还有点儿可能,但是如果一个考场的学生涂改的痕迹全部都是把错误的改成正确的,这概率微乎其微。

  就由这一点数据异常着手,从而破获了让整个世界瞠目结舌的亚特兰大考试舞弊案。最令人发指的事情是有一群老师在考试后举办了一个披萨狂欢派对,在派对上大家把学生做错的试题全部改成了正确的。

  这才是教育界的业界良心啊!!!

  如今的数据越来越多,陷阱也越来越多,有时玩弄下文字游戏就能让业绩看起来高大上起来。我有一个QQ群,群里一共有三位男士,在今年的某一天,其中的一位土豪朋友给他老婆买了一件生日礼物,是一辆保时捷SUV,价值120万。后来,我对老婆说:“在这个群里,每个男人今年平均给自己老婆的生日礼物价值40万人民币,你还有什么不满意的?”那天,家里的平底锅终于派上了用场。

  曾经有某个应用的运营同学写过一份周报,“经过一周的运营推广,本应用的下载量提升了100%”。我看了之后对其崇拜之情油然而生,这就是力挽狂澜啊!后来,他酒后对我说:“其实我就是把下载量从之前的25个提升到了50个。”刹那间,我明白了,原来他只是在一个小的QQ群里推广了一下。由此可见,喝酒有害健康。

  除了文字游戏,数据背后的产生过程也往往陷阱密布。例如一个高中理科班,里面一共有10个女生,平均罩杯是B,而在高二的时候,里面一个A罩杯的女生转学了,平均罩杯变成了C。那么从数据上,我们是可以得出这样的结论“从B罩杯到C罩杯,高中学习有利于女生身材养成”。

  同理可得,矮子出去了,平均身高就提高了,差生出去了,平均成绩就提高了。所以未来在看到任何数据的时候,请不要马上就欢呼雀跃或者垂头丧气,先去想一想,数据合理吗?

  五、我不是教你诈之图表陷阱

  做一份数据报告,没有几个折线图条形图,都不好意思说自己是研究数据的。但是每一份高大上的图表背后,也会隐藏着不少的小秘密。

  在上图中,所有眼睛没问题的人都能看出铜锣湾扛把子陈浩南从《古惑仔》第三部开始,他参与群殴的次数和单挑的次数都急剧下滑,一直到2000年,他都不打架了!如果有心人刻意地加一句解释“《古惑仔》第四部上映的时间是1997年”。那么估计很多不靠谱的数据分析家就要开始说“从陈浩南出手次数可以看出香港回归之后社会治安好转”“黑社会社团在97之后转型民营企业,金融战取代街头混混砍杀”“驻港部队让香港居民安全感倍升”……

  实际上呢?实际上是《古惑仔》第四部战无不胜,里面冲锋在第一线的是和生番抢屯门的山鸡,陈浩南主要时间都在泡李嘉欣。而2000年版,名字则是《友情岁月之山鸡故事》,本身陈浩南在这里面就没有什么戏份。

  同样的,在不少公关软文中,会让人惊讶地发现自己企业和对手企业的走势图的比例尺都不一样,最终会显得自己企业的曲线是那么高耸入云,而对手的走势是那么的飞机场。

  六、把数据放在什么位置

  东星五虎之奔雷虎,会在自己一个古惑仔的酒吧里放莫扎特的安魂曲,但是这悠扬的乐曲中,耀扬不会因为自己对莫扎特的喜爱就放弃摔死恐龙。

  韦小宝将阿珂视为心目中的女神,但是他不会因为自己对女神的膜拜就放弃在丽春院的大床上为阿珂宽衣解带。

  同样对于数据分析来说,应该对数据进行基于经验的理解和科学的计算,然后表达并传播出来,让其有利于下一步决策。如今的很多数据分析集中在了计算和表达上,但是忽视了下一步的决策。

  无法对工作决策形成决定作用的数据分析,连花瓶都算不上。

  要知道单凭数据,有时并不能改变现状,因为大家可能不相信你的话或者数据,在19世纪匈牙利医生塞麦尔韦斯通过大量的试验得出了结论“是医生未经消毒的双手才导致了产妇因为产褥热而死”,但是这结果一出,导致了医学权威纷纷跳出来指责他,他从而伤心地离开了维也纳。直到他去世的1865年,巴斯德的细菌理论才问世,所有人才正视塞麦尔韦斯当年的数据。

  所以,在做任何数据分析之前,请先想清楚自己为什么要做这个分析,以及期望为哪方面的工作得到决策帮助。

  七、尾声

  其实本文非常适合起个名字叫做《如何用数据欺骗自己的老板》,如果你是打工仔,那么本文只是粗略地普及基本知识,更多的数据统计陷阱需要你在工作生活中不断地去发掘和完善,相信有一天,你会被老板钉在公司的耻辱柱上的。

  如果你是老板……您看这种文章不怕影响到自己未来的上市计划吗?

  当然,最后送给诸位一句古惑仔里的经典台词, “出来混,错了要认,被打也要站稳!”

  

时间: 2024-10-26 05:49:51

透过现象看本质很重要的相关文章

透过现象看本质:做可控的SEO

笔者一直很喜欢看国平老师的文章,国平老师的文章都是用一些最基本的SEO理论来指导学习SEO,而不是像某些大师那样华而不实.他的一家之言我从头到尾也已经拜读过好几遍了,每次都能从中学到很多简单确实用的SEO知识,当中我最喜欢国平老师的一个观点就是:做可控的SEO.这就要求我们seoer在做SEO时要透过现象看本质,做"可控的SEO".那么我们应该怎样做到SEO的可控性呢,且听笔者一一道来. 首先我想在这里先给大家推荐两本教材,<百度搜索引擎优化指南>和<谷歌搜索引擎优化

从ORA-01752的错误,透过现象看本质

这几天开发同学反映了一个问题,有一个Java写的夜维程序,用于每天定时删除历史过期数据,3月10日之前经过了内测,但这两天再次执行的时候,有一条SQL语句一直报ORA-01752的错误,由于近期做过一次开发库的迁移,从一个机房搬迁至另一个机房,而且开发同学确认这期间未变代码逻辑,所以怀疑是否和数据迁移有关,这个错误被测试同学提为了bug,卡在版本测试中,有可能造成进度延误,所以属于比较紧急的问题. 再来捋一下这问题的信息, (1).报错的SQL delete FROM (select * fro

透过现象看本质 百度有章可循

百度的数次更新,让seoer慌了神,乱了手脚,一时不知如何是好.面对百度的更新,以前大谈关键字优化的专家.高手们似乎静止了一样.近一个多月来,鲜有建设性的观点晒出,可能还在观察中吧!笔者不是行业的高手,但习惯于研究现象,通过对一些关键字排名首页的网站的研究得出一些结论,不一定对也不是万能,只是在某个时期看起来是对的. 最近解读我关注的行业的一个网站,又是一个新站,不到2个月,新注册的域名,在相关关键字的排名中,占据首页有一个月的时间了.几乎一出生就是成为了"高帅富",该关键字的优化是很

.Net Winform开发笔记(四)透过现象看本质_C#教程

写在前面: 从一个窗体的创建显示,再到与用户的交互,最后窗体关闭,这中间经历过了一系列复杂的过程,本文将从Winform应用程序中的Program.cs文件的第一行代码开始,逐步分析一个Winform应用程序到底是怎样从出生走向死亡,这其中包括Form.Show()和Form.ShowDialog()的区别.模式对话框形成的本质原因.消息循环.Windows事件与.net中事件(Event)的区别.System.Windows.Form.Application类的作用.以及我之前一篇博客中(.N

透过现象看本质—戏说12306验证码

年关将至,一场世界级的社会壮举又将上演,那就是咱们的春运,短短的十几天将搬运30亿人次 的客流,让国外的记者和看客们都不得不佩服咱们伟大祖国的交通运输能力.为了准备这场"大戏",抢票这种全民级现象已经提前上演,虽然买票难的问题已经逐 年好转,但在抢票过程中仍然槽点不断,其中的明星当属验证码了,这两天12306的验证码已经被大家各种吐槽各种调侃,那么这次和大家一起来研究一下关于 这个验证码背后的问题. 验证码的由来 其实一开始,互联网上是没有验证码的.那时想要在论坛上发帖,只需轻轻敲一下

透析现象看本质:电商圈排名分析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 电商圈的竞技已经渐渐接近尾声,然而角逐依然激烈,SEOer使劲浑身解数一搏高低.曾经有很多人认为,这场比赛并没有什么"高手的参加",看不到多少实质的技术.然而随着时间的推演,从这场比赛中不断地涌现出一越来越多的黑马,后来居上便是验证了SEO"四两拨千斤"的道理,在关键字的优化上,纵然是新站也可一搏高低.然而通过"电商圈"排名现象,我们是否可以得到更多的东西来揣摩呢? 一:关键字密度分析 SEOer认

通过现象看本质 网站降权四大表现不可不知

有人说网站优化就像在钢丝绳上跳舞,分寸很难拿捏,而且技术需到炉火纯青的地步.说出这番言论的人,对网站建设和网站优化一定是深有感触.甚至可以断定其所指的很难拿捏,一定是历经灰帽手法甚至作弊方法,遭受过搜索引擎处罚,当然这个是笔者个人见解,至少现在的情况是这个样子.因为基于内容和网站质量建设的优化方法,搜索引擎并不反感,其本身为搜索引擎提供了丰富优质有价值的内容.尽管如此,我们仍然要知晓一些网站被降权或者遭受惩罚的一些表现,就像此前撰文<网站优化:不用技巧就是最好的技巧>中间的观点,含而不露,知而

扒开现象看本质:大数据应用初成气候

想必没有几个人记得"安防大数据"是何时喊出的,但其口号始终在延续,多年在"云端",一度神一般地存在,却又捉不透.摸不着.不过在行业同仁的共同努力下,其终于开始"食人间烟火"了.作为新一代安防的寄托,大数据应用神技究竟练到了第几层?今天我们就来扒一扒. 大数据落地:众之所盼,却含苞晚放 翻阅a&s安全自动化的历史技术文章,不乏大数据.云计算的技术文章,谈得多了,听得多了,似乎大数据距我们咫尺之遥,呼之欲出;但实际上,大数据始终虚无缥缈,吵吵

透过现象看问题Cisco交换机状态灯全解

本文主要讲述了交换机状态灯不同的显示,来识别不同的问题,从而去解决它.下面文章给出了详细的介绍,相信会对你有很大帮助.交换机的 前面板有几个指示灯,用于监控系统的活动和性能.这些指示灯称之为发光二极管(LED).前面板上的指示灯包括:·系统指示灯·远程电源供应指示灯·端口模式指示灯·端口状态指示灯1:系统指示灯显示系统是否已经接通电源并且正常工作.指示灯颜色 系统状态关闭 系统未加电绿色 系统运行正常琥珀色 系统加电但运行不正常2:远程电源供应(rps)指示灯指示灯显示交换机是否有远程电源供电.