数据分析中会常犯哪些错误,如何解决的?

错把相关性当成因果性 correlation vs. causation

经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了。这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活、学习、工作中,时不时的就会有人犯这样的错误。

举个栗子

数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。

根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。

-- 声明:非科比粉,路人偏黑。

幸存者偏差 survivorship bias

数据分析中看到的样本是“幸存了某些经历”才被观察到的,进而导致结论不正确。

比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性/因果性真是限魂不散。

再比如 Uber 发现新用户有10块钱优惠券,但是平均评价却只有3星。相反,第二次再用的时候没有优惠券了,评价却高达4星半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。

样本跟整体存在着本质的不同

以知乎为例,会有种错觉人人年薪百万,985/211起,各种GFSBFM,天朝收入水平直逼湾区码工。然而一方面这是幸存者偏差,知乎大V们的发声更容易被看到(看,幸存者偏差也是阴魂不散)。另一方面,不要小瞧知乎跟天朝网民的差别,以及天朝网民跟天朝老百姓的差别--样本跟整体的差别。

类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。

过于追逐统计上的显著性 statistical significance

统计101告诉我们,要比较两组数是否不同,最基本的一点可以看它们的区别是不是统计上显著。

比如 Linkedin 又要改版了(我为什么要说又呢),有两个版本 A 和 B. 灰度测试发现,跟现有版本比起来,A 的日活比现有版本高20%,但是统计不显著。而 B 的日活跟现有版本虽然只高了3%,但是统计显著。于是 PM 拿出统计101翻到第二页说,来,咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 A 的数据吧(具体分析略过一万字)。

很显然,这个例子也是我瞎扯的。

不做数据可视化,以及更可怕的:做出错误或者带误导性的数据可视化

比如 @谢科 这个回答里提到的

「数据会说谎」的真实例子有哪些? - 谢科的回答

在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。

(一下步就是要编排一个 twitter 的例子了23333,因为数据分析表明,有 twitter 公司这样的例子读起来会更有趣)

数据分析提供的结果和建议不具有可行性

twitter通过分析文本数据发现。。。

算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵。。。

不做数据分析

别笑,据以前的校内后来的人人现在不知道叫什么的 PM 说,这是真的。(开个玩笑,人人的同仁要是介意的话我删掉)

本文转自d1net(转载)

时间: 2024-10-30 14:04:04

数据分析中会常犯哪些错误,如何解决的?的相关文章

数据分析中会常犯哪些错误,如何解决?

错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了.这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活.学习.工作中,时不时的就会有人犯这样的错误. 举个栗子 数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖

你中枪了吗?设计新手在PS中最常犯的错误

Photoshop是最流行的图像合成软件,粉丝遍布全球,不过对于新手设计师,可能犯一些常见的错误,在这篇文章中笔者列出了6个频率较高的错误,来看看你中枪了没. 一.少图层,没分组 这个坏习惯我们在<设计师必练PS武功秘笈!最优PS设计白皮书>提到过,多创造图层,学会给图层分组是一个专业设计师必须学会的,这不仅有利于你的修改,也是团队合作中少不得的习惯. 在刚开始的设计中,你可能会认为少创建图层能节省时间,但当项目变得越来越大时,你会意识到足够量的图层是多么地重要. 当你犯错时,图层能够给你修改

设计新手在PS中最常犯的错误

  一.少图层,没分组 多创造图层,学会给图层分组是一个专业设计师必须学会的,这不仅有利于你的修改,也是团队合作中少不得的习惯. 在刚开始的设计中,你可能会认为少创建图层能节省时间,但当项目变得越来越大时,你会意识到足够量的图层是多么地重要. 当你犯错时,图层能够给你修改的机会,大大地增强你编辑.复制甚至删除等操作的可能性,而不是重新来一稿. 多个图层,也可以让你不必总是修改一个图层,你可以复制一层,在这层上面修改,坏了随时可以再来. 至于图层分组,很多前辈已经强调过它的重要性了,笔者想你一定不

网站百度优化中最常犯的错误

摘要: 1. 没有进行关键词分析 方向不明确.关键词配置不合理,排名效果不好.投入大量资本,回报率低等,这些都是没有进行关键词产生的问题,这些问题都具有致命性. 2. 经常性的更改 1. 没有进行关键词分析 方向不明确.关键词配置不合理,排名效果不好.投入大量资本,回报率低等,这些都是没有进行关键词产生的问题,这些问题都具有致命性. 2. 经常性的更改网页TITLE TITLE是搜索引擎匹配关键词的核心点,搜索引擎依赖title标签进行切词.分词建立索引,这是最原始阶段的搜索引擎排名的核心点,虽

搜索引擎营销六个常犯的错误和解决方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 每个月我都接触大量的网站-小的.大的.有些是我们做的.还有些是公司外包的.对不能正常运营的小型商业网站,做了大范围的调查.我把发现最多的问题列在下面6类之中: 一.复制内容 这儿有一些复制内容的类型,最常见的复制页面类型是网页标题和网页描述标签重复. 很多时候,这个问题实际上并非有意如此-品牌名称重复出现在一个接一个页面的title里,或者刚

PS中最常犯的6个错误

  一.少图层,没分组 这个坏习惯我们在<<WEB设计指南!PS礼仪白皮书>>提到过,多创造图层,学会给图层分组是一个专业设计师必须学会的,这不仅有利于你的修改,也是团队合作中少不得的习惯. 在刚开始的设计中,你可能会认为少创建图层能节省时间,但当项目变得越来越大时,你会意识到足够量的图层是多么地重要. 当你犯错时,图层能够给你修改的机会,大大地增强你编辑.复制甚至删除等操作的可能性,而不是重新来一稿. 多个图层,也可以让你不必总是修改一个图层,你可以复制一层,在这层上面修改,坏了

网页设计易用性:43条网站设计中常犯的错误

这是一篇关于网站易用性的文章,作者以亲身体会讲述了43条网站设计中常犯的错误,而无疑这些错误会大大影响网站的可用性.如今网站易用性已成为一种趋势,但纵观国内的各大网站,似乎易用性并未成为设计者们广泛理解的概念,因此希望这篇文章对大家能有作用. 1. 用户必须在几秒钟知道网站是做什么的. 注意力是因特网上最有价值的货币.如果访问者无法在几秒钟之内得知你的网站的方向,他很有可能转而访问其他网站.你必须迅速地告诉访问者为什么要在你的网站上花费时间. 2. 让网站易于速读. 因特网不是书,因此没必要使用

网站优化新手常犯的错误

摘要: 当一个人第一次成为个人站长,即创建一个以互联网独立平台为牟利手段的网站,他一定会接触到并去学习网站优化,即SEO.这就好比一个练武的人和人打架,和对手打得难解难分的时 当一个人第一次成为个人站长,即创建一个以互联网独立平台为牟利手段的网站,他一定会接触到并去学习网站优化,即SEO.这就好比一个练武的人和人打架,和对手打得难解难分的时候,对方忽然使出了暗器,自己因此惊慌败下阵来.这个暗器就好比网站优化,当你努力做好自己的网站,出色的内容,优良的架构,良好的用户体验,而对手也和你相差无几的时

影响新站收录的原因以及新站长常犯的错误

新站的收录速度,是众多SEOer津津乐道的一个话题,什么样的新站被收录速度最快,什么情况下新站会很难被收录,都有些什么因素决定着新站的收录速度?这些问题,都是我们最想得到答案的.而影响新网站收录,笔者认为主要从以下几个方面入手. 1.网站的内容是否足够丰富.对于一个新站来说,要让内容丰富,还是一个比较困难的事情,如何才能让新站有足够的信息量,能够满足搜索引擎的收录,是个值得讨论的话题,而笔者认为,作为一个新站,至少有足够的文章能够使网站的主页能够充实,否则,你就必须尽快添加信息. 2.网站有没有