前言
在分析领域中,因果性和相关性的使用是不精确的。人们倾向于互换使用这两个词,但并不知道隐藏其中的基本逻辑。显然,人们被这两个词的(英文)发音所迷惑,最终将它们用在错误的地方。但我要提醒注意的是,除了发音相似,这两个词并没有很多相同之处。事实上,它们的基本含义可谓相去甚远!
让我们通过以下的一些例子,来理解因果性和相关性之间的区别。分析下面这些场景,请回答在两个事件X和Y之间是否有因果性。答案在后面。
例1:X( 学生被录取的学院的级别)=> Y (毕业后的收入)
假设:精英商学院学生的收入比平均水平高。这些商学院是获得更好工作的原因吗?
例2: X (抽烟)=> Y(精神压力水平)
假设:抽烟的人被发现精神压力更大。抽烟是导致压力的原因吗?
例3:X(有孩子)=> Y (成熟度)
假设:人们在有了孩子后更成熟?有孩子是成熟度更高的原因吗?
例4: X (海拔)=> Y(温度)
假设:我们观测到海拔较高时,温度较低。这意味着,海拔越高就越冷。那么,更高的海拔是导致更低温度的原因?
希望上面的例子会触发你的学习欲望,并且让你兴奋地想多学一点。尽管这不是一个刚被发现的话题,但是人们仍没有切实掌握使用这些术语。因此,我试图用最简单的方式来解释因果性和相关性的各个方面。
本文中,我将解释因果性和相关性之间的区别,接着学习只有相关性还是有因果关系。如果你想在分析行业有扎实的基础,理解这个概念是非常必要的,而目前分析就像在一些黑匣子上工作。这些技术(因果性和相关性)不只是局限于分析行业,它们的应用遍及所有的行业。
一起来看看答案:
例1:不存在因果性。比如,只有那些从精英商学院中被选中的雄心勃勃且聪明的人,后来才获得比平均水平高的收入。因此,就算这些学生没有在那些精英商学院学习,他们仍旧可能得到比平均水平高的收入。于是,在这种情况下,我们有可替代的推理。
例2:不存在因果性。我们可以基于逆因果性来推翻假设。比如,较大的精神压力事实上能让一个人去抽烟。
例3:不存在因果性。再一次地,我们可以基于逆因果性来推翻假设。比如,只有成熟的人可能准备好了要生孩子。我们也可以用年龄作为潜在的原因来替代。更大的年龄导致想生孩子和更成熟。
例4:不存在因果性 。我们当然知道,逆因果性是不可能存在的。可替代的原因或相互独立的关系也是不存在的。
结论:如果你能正确地回答这所有的4个问题,你可以进入下一个概念了。假如你做错了任何一题,你也许需要在因果性问题上多加练习。
什么是建立因果关系的关键点?
建立因果关系的关键点对(X = > Y)是:
1、可替换推理:若存在一个可替换的原因(Z),Z确实对X和Y都有影响,即Z => X和Z => Y为真,就那么可以推翻假设X => Y。
2、逆因果性:如果可以用Y影响X来替换X影响Y,那么可以根据逆因果性来推翻假设X => Y。
3、相互独立:有时候X和Y也许是“被相关”,而再无其它联系。在这样的情况下,根据相互独立性可以推翻假设。
我们如何能确定得到因果性?
在类似制药领域中,建立因果对是非常重要的。这正是制药领域要完成足够多的研究来找到因果对的原因。在开始数学推导前,要理解下面的一些定义。
1、随机实验数据:一种实验通常被定义成在不同条件下随机分配观测单元,条件随着对观测单元的处理而不同。“处理”(treatment)是一个通用的术语,在医疗应用中最容易翻译(例如,不同情况对病患得到不同的治疗),但是它也适用于其它领域。
2、观测数据:如果没有太多的钱做随机测试,就不得不在已有数据资源上下功夫。在不受控的情况下,这样的事件已经发生了。因此,选择不是随机的。
由观测数据推导出因果关系是非常困难的,且不具有结论性。在因果关系上要获得具有结论性的结果,需要做随机测试。
为什么观测数据不具有结论性?
- 观测数据不具有结论性,是因为观测数据不是随机选择的。我们永远无法从单个的因果对上得出结论。
2. 例如,如果大量从精英商学院毕业的学生获得更高收入;这不能推出因果性,因为选择是基于最初的表现。
3.无论如何,如果随机从精英商学院中选取学生,这个分析将会在建立因果性上更具有结论性。
为什么不是每一次都进行随机测试来建立因果性?
你将会因为多种原因被要求利用观测数据而不是测试数据工作。
第一个原因是,做测试需要资金。例如,如果你的假设是给消费者免费的iPhone,这个活动会对苹果公司的销售带来增量收益。在不知道任何因果关系时,做这个测试当然是个耗资巨大的提议。
第二个原因是,不是所有的测试在道德上都是被允许的。例如,如果想知道抽烟是否对精神压力产生影响,需要让正常人抽烟,而这从道德上来说是不被允许的。
在那种情况下,如何利用观测数据建立因果性?
在这一具体问题上,已经完成了大量的研究。这些方法的整体目标,是消除任何未观测到变量的影响。下面,将介绍一些众所周知的技术:
一、面板模型(普通回归):若至少在一个维度上,不可观测到的维度是不变的,那么用这个方法就非常方便。例如,如果在时间上,不可观测到的维度是不变的,就可以试着建立一个面板模型,从不可观测到的维度上分离出偏差。比如,以商学院=>高收入为例子,假设不可观测到的维度不随着时间而改变。
来试试这个方法。
- 下面是个Y(收入)的回归方程,以精英商学院(下标T)和不可观测到的维度(下标U)为变量
2. 但是,因为不可观测到的维度不随着时间而改变,可以将方程简化如下:
3. 现在,可以通过随着时间产生的差别来消除不可观测到因素
现在,问题是在商学院和收入之间找到因果性的确切系数。
二、模拟控制:观测数据最大的问题是在同一个数据点,无法同时获取得到处理和未经处理的数据。比如,在前面提到的抽烟例子里, 一个人不能同时既是抽烟者又是不抽烟者。
但是,如果可以为得到处理的数据在未经处理组找到看起来很像的数据,然后在相似数据中比较得到处理的反应结果。这是在如今的行业中应用最普遍的方法。
这种相似性可以在近邻算法、k-d树或其它算法中找到。打个比方,两个人,他们年龄一样,性别一样,收入一样等等。其中一人开始抽烟,另一人则不抽烟。现在,如果其它条件没有变化,那么可以在一段时间内比较他们的压力水平。
从理论上讲,这个方法听起来让人非常兴奋,它通常是难以创建纯模拟或虚拟控制,有时它能产生也许不正确的结论。这事实上是将来另外一篇不同文章的主题。
三、辅助变量(IV):这或许是最难实施的。下面是实施这技术的步骤:
- 找到因果对。
2.找到跟原因有关的属性,但是这跟通过回归因果对获得的误差无关。这个变量就是已知的辅助变量(IV)。
3.现在利用辅助变量(IV)估计原因变量。
4.试试回归估计因果对来找到因果性的实际参数。
到目前为止,我们完成了什么?
利用观测数据,在因果对中使用任何回归技术都有偏差系数。用这种方式,可以得到无偏差的估计。比如,在抽烟——精神压力对中,我们也许认为会被逆因果性所影响。
现在,如果可以找到和卷烟消费量而不是和精神压力有关的信息,也许能找到真正的关系。通常,辅助变量(IV)是基于调整的变量。例如,我们发现税收管理只提高了卷烟的价格,导致整个模型里的卷烟消费量下降。现在可以试试按上面提到的4个步骤来找找精神压力因果性。
4. 回归不连续性设计:这是我最喜爱的选择。它使得观测数据真正接近实验设计。
在下图中,我们发现一个维度,其上有一个峰值,该峰值位于得到处理和未经处理的群体比例上。假设,我们想测试在课程结束时,奖学金对大学生成绩的影响。注意,奖学金是提供给在入学考试中得分在80分以上的学生。发生扭转的地方就在这里:因为这些学生已经很聪明,未来他们也许继续保持顶尖水平。因此,这是一个难以破解的因果性。
但是,如果把成绩刚刚在80分以下(比如说79.9分)的学生和成绩刚刚在80分之上(比如说80.1分)的学生在学期结束时的成绩做一比较。假设那些得分为79.9的学生和得分为80.1的学生不会有很大的差别,只有奖学金的作用可以改变。这就是所谓的准随机选择。
因此,得到的结果会很接近完美的因果性结论。使用这种方式的唯一挑战,在于得到这样一个维度是非常难的,而它能在得到处理和未经处理的群体之间进行很好的划分。
结束语
在分析领域中,建立因果性也许是最难的任务。得到错误因果性的概率异常高。本文章讨论的关键概念将较好地帮助你解决因果性问题。
就以这些幽默的话题结束这篇文章吧。这里有些图片显示了相关性和因果性的不同。
虚假的相关性:
原文发布时间为:2015-07-06