你真的看懂数据新闻了吗?

前言

在分析领域中,因果性和相关性的使用是不精确的。人们倾向于互换使用这两个词,但并不知道隐藏其中的基本逻辑。显然,人们被这两个词的(英文)发音所迷惑,最终将它们用在错误的地方。但我要提醒注意的是,除了发音相似,这两个词并没有很多相同之处。事实上,它们的基本含义可谓相去甚远!

让我们通过以下的一些例子,来理解因果性和相关性之间的区别。分析下面这些场景,请回答在两个事件X和Y之间是否有因果性。答案在后面。

例1:X( 学生被录取的学院的级别)=> Y (毕业后的收入)

假设:精英商学院学生的收入比平均水平高。这些商学院是获得更好工作的原因吗?

例2: X (抽烟)=> Y(精神压力水平)

假设:抽烟的人被发现精神压力更大。抽烟是导致压力的原因吗?

例3:X(有孩子)=> Y (成熟度)

假设:人们在有了孩子后更成熟?有孩子是成熟度更高的原因吗?

例4: X (海拔)=> Y(温度)

假设:我们观测到海拔较高时,温度较低。这意味着,海拔越高就越冷。那么,更高的海拔是导致更低温度的原因?

希望上面的例子会触发你的学习欲望,并且让你兴奋地想多学一点。尽管这不是一个刚被发现的话题,但是人们仍没有切实掌握使用这些术语。因此,我试图用最简单的方式来解释因果性和相关性的各个方面。

本文中,我将解释因果性和相关性之间的区别,接着学习只有相关性还是有因果关系。如果你想在分析行业有扎实的基础,理解这个概念是非常必要的,而目前分析就像在一些黑匣子上工作。这些技术(因果性和相关性)不只是局限于分析行业,它们的应用遍及所有的行业。

一起来看看答案:

例1:不存在因果性。比如,只有那些从精英商学院中被选中的雄心勃勃且聪明的人,后来才获得比平均水平高的收入。因此,就算这些学生没有在那些精英商学院学习,他们仍旧可能得到比平均水平高的收入。于是,在这种情况下,我们有可替代的推理。

例2:不存在因果性。我们可以基于逆因果性来推翻假设。比如,较大的精神压力事实上能让一个人去抽烟。

例3:不存在因果性。再一次地,我们可以基于逆因果性来推翻假设。比如,只有成熟的人可能准备好了要生孩子。我们也可以用年龄作为潜在的原因来替代。更大的年龄导致想生孩子和更成熟。

例4:不存在因果性 。我们当然知道,逆因果性是不可能存在的。可替代的原因或相互独立的关系也是不存在的。

结论:如果你能正确地回答这所有的4个问题,你可以进入下一个概念了。假如你做错了任何一题,你也许需要在因果性问题上多加练习。

什么是建立因果关系的关键点?

建立因果关系的关键点对(X = > Y)是:

1、可替换推理:若存在一个可替换的原因(Z),Z确实对X和Y都有影响,即Z => X和Z => Y为真,就那么可以推翻假设X => Y。

2、逆因果性:如果可以用Y影响X来替换X影响Y,那么可以根据逆因果性来推翻假设X => Y。

3、相互独立:有时候X和Y也许是“被相关”,而再无其它联系。在这样的情况下,根据相互独立性可以推翻假设。

我们如何能确定得到因果性?

在类似制药领域中,建立因果对是非常重要的。这正是制药领域要完成足够多的研究来找到因果对的原因。在开始数学推导前,要理解下面的一些定义。

1、随机实验数据:一种实验通常被定义成在不同条件下随机分配观测单元,条件随着对观测单元的处理而不同。“处理”(treatment)是一个通用的术语,在医疗应用中最容易翻译(例如,不同情况对病患得到不同的治疗),但是它也适用于其它领域。

2、观测数据:如果没有太多的钱做随机测试,就不得不在已有数据资源上下功夫。在不受控的情况下,这样的事件已经发生了。因此,选择不是随机的。


由观测数据推导出因果关系是非常困难的,且不具有结论性。在因果关系上要获得具有结论性的结果,需要做随机测试。

为什么观测数据不具有结论性?

  1. 观测数据不具有结论性,是因为观测数据不是随机选择的。我们永远无法从单个的因果对上得出结论。

2. 例如,如果大量从精英商学院毕业的学生获得更高收入;这不能推出因果性,因为选择是基于最初的表现。

3.无论如何,如果随机从精英商学院中选取学生,这个分析将会在建立因果性上更具有结论性。

为什么不是每一次都进行随机测试来建立因果性?

你将会因为多种原因被要求利用观测数据而不是测试数据工作。

第一个原因是,做测试需要资金。例如,如果你的假设是给消费者免费的iPhone,这个活动会对苹果公司的销售带来增量收益。在不知道任何因果关系时,做这个测试当然是个耗资巨大的提议。

第二个原因是,不是所有的测试在道德上都是被允许的。例如,如果想知道抽烟是否对精神压力产生影响,需要让正常人抽烟,而这从道德上来说是不被允许的。

在那种情况下,如何利用观测数据建立因果性?

在这一具体问题上,已经完成了大量的研究。这些方法的整体目标,是消除任何未观测到变量的影响。下面,将介绍一些众所周知的技术:

一、面板模型(普通回归):若至少在一个维度上,不可观测到的维度是不变的,那么用这个方法就非常方便。例如,如果在时间上,不可观测到的维度是不变的,就可以试着建立一个面板模型,从不可观测到的维度上分离出偏差。比如,以商学院=>高收入为例子,假设不可观测到的维度不随着时间而改变。

来试试这个方法。

  1. 下面是个Y(收入)的回归方程,以精英商学院(下标T)和不可观测到的维度(下标U)为变量

2. 但是,因为不可观测到的维度不随着时间而改变,可以将方程简化如下:

3. 现在,可以通过随着时间产生的差别来消除不可观测到因素

现在,问题是在商学院和收入之间找到因果性的确切系数。

二、模拟控制:观测数据最大的问题是在同一个数据点,无法同时获取得到处理和未经处理的数据。比如,在前面提到的抽烟例子里, 一个人不能同时既是抽烟者又是不抽烟者。

但是,如果可以为得到处理的数据在未经处理组找到看起来很像的数据,然后在相似数据中比较得到处理的反应结果。这是在如今的行业中应用最普遍的方法。

这种相似性可以在近邻算法、k-d树或其它算法中找到。打个比方,两个人,他们年龄一样,性别一样,收入一样等等。其中一人开始抽烟,另一人则不抽烟。现在,如果其它条件没有变化,那么可以在一段时间内比较他们的压力水平。

从理论上讲,这个方法听起来让人非常兴奋,它通常是难以创建纯模拟或虚拟控制,有时它能产生也许不正确的结论。这事实上是将来另外一篇不同文章的主题。

三、辅助变量(IV):这或许是最难实施的。下面是实施这技术的步骤:

  1. 找到因果对。

2.找到跟原因有关的属性,但是这跟通过回归因果对获得的误差无关。这个变量就是已知的辅助变量(IV)。

3.现在利用辅助变量(IV)估计原因变量。

4.试试回归估计因果对来找到因果性的实际参数。

到目前为止,我们完成了什么?

利用观测数据,在因果对中使用任何回归技术都有偏差系数。用这种方式,可以得到无偏差的估计。比如,在抽烟——精神压力对中,我们也许认为会被逆因果性所影响。

现在,如果可以找到和卷烟消费量而不是和精神压力有关的信息,也许能找到真正的关系。通常,辅助变量(IV)是基于调整的变量。例如,我们发现税收管理只提高了卷烟的价格,导致整个模型里的卷烟消费量下降。现在可以试试按上面提到的4个步骤来找找精神压力因果性。

4. 回归不连续性设计:这是我最喜爱的选择。它使得观测数据真正接近实验设计。

在下图中,我们发现一个维度,其上有一个峰值,该峰值位于得到处理和未经处理的群体比例上。假设,我们想测试在课程结束时,奖学金对大学生成绩的影响。注意,奖学金是提供给在入学考试中得分在80分以上的学生。发生扭转的地方就在这里:因为这些学生已经很聪明,未来他们也许继续保持顶尖水平。因此,这是一个难以破解的因果性。

但是,如果把成绩刚刚在80分以下(比如说79.9分)的学生和成绩刚刚在80分之上(比如说80.1分)的学生在学期结束时的成绩做一比较。假设那些得分为79.9的学生和得分为80.1的学生不会有很大的差别,只有奖学金的作用可以改变。这就是所谓的准随机选择。

因此,得到的结果会很接近完美的因果性结论。使用这种方式的唯一挑战,在于得到这样一个维度是非常难的,而它能在得到处理和未经处理的群体之间进行很好的划分。

结束语

在分析领域中,建立因果性也许是最难的任务。得到错误因果性的概率异常高。本文章讨论的关键概念将较好地帮助你解决因果性问题。

就以这些幽默的话题结束这篇文章吧。这里有些图片显示了相关性和因果性的不同。

虚假的相关性:

原文发布时间为:2015-07-06

时间: 2024-09-20 16:35:55

你真的看懂数据新闻了吗?的相关文章

一文看懂数据可视化:从编程工具到可视化表现方式

说到可视化,就不得不说一下大数据,毕竟可视化是解决大数据的一种高效的手段,而如今人人都在谈论大数据,大数据 ≠ 有数据 ≠ 数据量大, 离谱的是,如今就连卖早点的觉得自己能统计每天卖出的种类,都敢说自己是搞大数据. 时间推移到 2009 年,"大数据" 开始才成为互联网技术行业中的热门词汇.对"大数据"进行收集和分析的设想,起初来自于世界著名的管理咨询公司麦肯锡公司;麦肯锡公司看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研,在

一张图看懂数据科学家、数据工程师和软件工程师之间的区别

大家都知道,这三种角色各有不同定位,也知道他们之间有许多一致的地方,但是否能讲明白这其中的区别呢? 国外 ETL 服务商 Stitch 的 CEO Jake Stein,近日对这个话题进行了总结.他还绘制了一张工具图,来呈现他们在日常工具使用上的不同.对于新手,也可以通过这张图来看典型的"数据科学家"."数据工程师"和"软件工程师"都要掌握哪些工具. Jake Stein:随着数据的爆炸式增长,对数据处理的专家技能需求也随之井喷.这带来的结果之一

程序员统计知识-看懂数据

中位数.平均值.标准差.箱形图

用大数据看懂《速度与激情》的用车法则

文章讲的是用大数据看懂<速度与激情>的用车法则,当你对<速度与激情>中的车流口水时,有没有想过,这个电影里究竟有多少台车?哪个品牌车最多?什么车最厉害?-- 没错,4月12日,<速度与激情7>就要和中国观众见面了,无论你是不是<速度与激情>系列的粉丝,这都是一部不可不看的作品.在此,TD并不想剧透电影剧情,而是想和你侃侃在<速度与激情>中的那些车. 或许,你对<速度与激情>中Han驾驶的RX-7记忆犹新,或许你对拖着金柜狂飙的道奇Ch

[图说]一棵草的故事带你看懂大数据由来

文章讲的是[图说]一棵草的故事带你看懂大数据由来,编者按:互联网时代,大数据概念受到强烈追捧,企业宣传.媒体炒作几度将其推至高点,很多非技术行业人士都在感叹大数据神奇的同时望而却步,只觉它晦涩难懂.其实,很多神奇的东西都只是需要时间让人们了解,而后会发现,它其实并不那么高高在上不可触及.下面就让<技术照妖镜>为你照一照大数据真面目,希望看完能对你理解大数据带来帮助. 作者:崔月 来源:IT168 原文链接:[图说]一棵草的故事带你看懂大数据由来

[译]数据会骗人?帮你能看懂图表的误导!

我们看到过各种图表,其中最常见的就是曲线图.你可能觉得它没有什么难理解的,很容易看明白.甚至,你自己也做过各种漂亮的曲线图.但是,如果处理不得当(或被精心处理过),会造成很大的误导. 记得我小时候读到一期<疯狂杂志>,里面有一则关于统计学的搞笑漫画.它讲了一个剧院老板是怎么通过设计含有误导数据的广告来说服毫无戒备之心的观众来观影. 漫画的第一幅图里,剧院经理在一则广告中声称"上周电影票房翻倍".第二幅图画出了真实情况:第一周只有两个人来观影,第二周只有四人,还有一个人正在退

六张图看懂 Amazon Go智能购物,专利文件解密AI 核心技术细节

亚马逊Go推广视频:1分钟,颠覆你对线下实体购物的认知 几天前,就在亚马逊迎来可能是公司史上最大的 Holiday Season时,亚马逊发布了一段介绍旗下新的零售商店 Amazon Go 的视频,消费者可以直接走进商店,拿下货架上的货物,然后离开.整个过程不需要排队,也不用结账. <福布斯>的记者 Ryan Mac 说:"这看起来非常有趣,充满了未来感,但是,至少目前为止,这一切还都只是宣传." 每年从感恩节到圣诞节的长假中,亚马逊都会成为媒体上的最大赢家.2013年,B

深入浅出看懂AlphaGo Zero - PaperWeekly 第51期

AlphaGo Zero = 启发式搜索 + 强化学习 + 深度神经网络,你中有我,我中有你,互相对抗,不断自我进化.使用深度神经网络的训练作为策略改善,蒙特卡洛搜索树作为策略评价的强化学习算法. 1. 论文正文内容详细解析 先上干货论文:Mastering the Game of Go without Human Knowledge [1],之后会主要以翻译论文为主,在语言上尽量易懂,避免翻译腔. AlphaGo Zero,从本质上来说完全不同于打败樊麾和李世石的版本. 算法上,自对弈强化学习

【AI+娱乐】一图看懂爱奇艺大脑增强版,智能视频峰会有AI更有爱

深度学习和强化学习在视频领域的应用会是下一个AI热点,情感计算会让智能视频的世界更有温度,爱奇艺世界未来有AI更有爱.--新智元创始人杨静 6月9日,爱奇艺世界·大会第二天,聚焦探讨AI与娱乐深度融合.相互激发的智能视频高峰论坛盛大开幕,爱奇艺CTO汤兴博士.杜比实验室全球高级副总裁John Couling.北京电影学院未来影像高精尖创新中心首席科学家.山东大学计算机学院院长陈宝权博士.英特尔中国研究院院长宋继强博士.中影国际文化传媒公司董事长.CEO唐季礼.新智元创始人杨静等业界专家.企业家共