相关性和因果性:周扒皮原来是大数据应用的先驱者

在大数据时代,相关关系似乎替代了因果关系。然而世界具有复杂性,大数据时代世界似乎被数据统治,是混沌的。

相关关系是指当一个数据变化时,另一个数据也可能随之变化,不论是这两个数据也没有必然联系。相关关系有可能是正相关也有可能是负相关,有可能是强相关也有可能是弱相关。

因果关系是指当一个作为原因的数据变化时,另一个作为结果的数据在一定程度发生变化,这两个数据存在着必然联系。因果关系可能是线性关系,也可能是非线性关系。

大数据来了,相关性的凸显,使我们看到了以前不曾注意的联系,掌握了以前很难理解的复杂系统。通过相关性的研究,可以帮助企业赚钱,帮助政府决策就够了,不要讲究“为什么”,至于因果关系就让科学家们慢慢琢磨去吧。

相关性倒不是什么新鲜话题,于是乎我想起了地主周扒皮。上世纪四十年代,中国农村某地有个地主叫周扒皮,他雇佣了几个长工为他种地,周扒皮不可能懂得相关关系和因果关系,但他很狡猾,他悟出了两个现象之间的联系,公鸡一叫,太阳不久就会升起。旧时中国农民有个习惯,日出而作,日落而息。于是,每天半夜他到鸡窝旁学鸡叫,引得鸡窝里的公鸡一起打鸣,然后周扒皮到长工屋大喊:鸡都叫了,快下地干活。

显然,公鸡叫,太阳升这两个事儿之间并没有什么因果关系,他们之间仅仅是相关关系,因为不能认为公鸡叫是太阳升的原因,太阳升是公鸡叫的结果。如果把天下的公鸡都杀了,太阳从此不升起来了,因果关系才能得到验证。但周扒皮利用相关关系延长了长工的劳动时间,达到了剥削的目的。

古时候没有天气预报,人们往往根据蛙鸣预测有没有雨,但雨水不应是蛤蟆叫出来的。地震前动物往往有异常表现,但地震不应是阿猫阿狗闹出来的。但是了解这些现象之间的相关关系往往有用处。

有些学者用世界的复杂性解释大数据复杂性,认为这个世界是混乱的,世界上大多数发生的事是碰巧出现的,完全不受定律和因果性的支配,但这个世界又是数据的,混乱性只有使用大数据才能进行说明。这些观点又用蝴蝶效应进行了说明。据说地球一端更多一只蝴蝶煽动了一下翅膀能引起地球另一端一场暴风雨,并将这一现象引人复杂性科学,是指在一个动力系统中,初始条件下微小的变化能带动整个系统长期巨大的连锁反映。我们不怀疑复杂适应系统理论的科学性,但实在无法验证中国哪一场暴风雨是由美国的哪一只蝴蝶的翅膀引发的,更无法分析其相关性。

科学研究的现象都是可重复的,重复考研在实验室中复制,也可以在现实世界中产生。蝴蝶翅膀和暴风雨的关系显然不能在实验室中实验,但我们也无法在现实世界中取得它们相关性的数据。我奶奶和我讲过她父亲的故事,有一天我奶奶的父亲在祖坟里看到了一只狐狸,第二年我奶奶的父亲便娶了一个美如妖的媳妇,就是我奶奶的母亲,但这种事情以后再也没有发生过,不能重复。千年一现的事物只能是传说,不是科学研究的对象。实验室中的实验结果每一次都会有差异,我们通过统计平均,在变化中研究规律,因而千年不变的事物也不是科学研究的对象。现实世界产生的大数据在一定条件下是可以重复和多变的,给科学研究提供了基本条件,也对科学研究提出了新的挑战。

几千年来,探讨事物之间的因果关系是理、工、农、医、文几乎所有科学研究的重要目的。相关性和因果性是哲学问题,哲学家、数学家、统计学家、物理学家、医学家、经济学家大都将寻找自身研究领域中的因果关系当做一生的追求。古希腊哲学家说:“我宁肯找到一个因果关系的说明,不愿获得一个波斯王位。”千百年,虽然哲学家思辩方式已深入人心,老百姓还是相信事出有因,宗教人士宣传因果报应。

在研究相关关系和因果关系方面,统计学做出了巨大贡献。统计学提出了相关系数,通过计算相关系数判断事物之间的相关关系,对相关系数教学统计检验,若通过检验,证明事物之间的相关程度高,便可以进一步做回归分析。在计算相关系数时,首先要通过理论研究和定性分析筛选变量,对有内在联系的数据做相关分析。与大数据思维不同,统计学认为公鸡叫与太阳升、蛙鸣与下雨,它们之间没有内在联系,即无因果关系,属于虚假相关,尽管相关系数可能很高,也没有做回归分析的必要了。

在回归分析中,设xi为自变量,设yi为因变量,统计学的研究几乎穷尽了因果关系的所有可能。对一因一果的现象,可以建立一元回归模型;对多因一果的现象,可以建立多元回归模型;对一因多果的现象,可以建立路径分析等模型;对多因多果的现象,可以建立联立方程等模型。

显然,回归模型比相关系数进了一步,它可以解释数据之间作用机制和作用的大小。但回归模型即使通过了各种统计检验,也可能只在一定程度上说明事物之间的因果关系。模型的自变量不一定是原因,因变量不一定是结果。Xi与yi之间的因果关系是否成立,还要由统计学所应用领域的专家来判断,如经济学家、管理学家、生物学家、医学家等,并大量的实践得到检验。统计模型只能说包含真正因果关系的可能性较大,二真值在哪里?上帝知道。

大数据可理解为大而复杂的数据,具有异母体、噪音累积、虚假相关、内生性、时变性等,我们几乎被数据包围。在这种数据环境下,寻找数据之间因果关系非常困难,也有观点认为在大数据时代,探索因果关系几乎不可能,因而因果关系消失了,相关关系替代了因果关系。但我们也应看到,在大数据环境下,做相关性的研究也非常困难,几十万个样本规模,几十万个维度,甚至更多,怎么计算相关系数?如果不用相关系数,用什么方法?

相关关系是比因果关系更宽泛的概念,事物之间有相关关系不一定存在因果关系,有因果关系必定有相关关系。相关分析是因果分析的基础,因果分析是相关分析的深化。大数据的相关关系不仅没有替代因果关系,反而给因果关系的研究提供了更广泛的发展空间。

医疗大数据、药物研发大数据、基因大数据给精准医疗、药物研究等领域带来一切变革,但仅靠相关关系很难找到病因,无法对症下药,药物的研发也很难针对各种病症,当然也不需要建立起因果模型后再实践。阿司匹林是治疗感冒的药,后来人们发现这种药对预防心脑血管疾病有疗效,经过大量临床,发现阿司匹林对预防心脑血管疾病疗效显著,有相关关系。而后,对阿司匹林进行药理分析,才发现阿司匹林中含有治疗心脑血管疾病的药物成分,建立了因果关系。

那么我们期望大数据引来因果分析的一场革命吧。

 原文发布时间为:2016-12-03

时间: 2024-10-07 15:19:19

相关性和因果性:周扒皮原来是大数据应用的先驱者的相关文章

马云民企“奥斯卡”上吐心声:我们不是“周扒皮”

宗庆后说,民企不要跑到国外去当二等公民;李书福表示,自己也在"委屈求全";马云强调,我们不是周扒皮;邱继宝语气高亢地说,外部环境越不好越要国际化-- 在昨天的第十届http://www.aliyun.com/zixun/aggregation/36489.html">中国民营企业峰会,聚集2000余名民营企业家的会场上,掌声此起彼伏,民企大佬们吐露着自己的心声,并给予陷入困境的同伴经验之谈. 马云: 我们不是"周扒皮" "我从一个相对秘密的

2016年成都服务外包产业新春交流年会 勤智大数据CTO周智受邀分享大数据营销的技术成果

导读 2016年01月20日 2016年成都服务外包产业新春交流年会在成都雅居乐豪生大酒店举办, 勤智数码大数据CTO周智先生受邀和大家分享大数据方面的最新研究成果 勤智数码大数据CTO 周智现场演讲 行业背景                前不久,曾经帮助美国政府追踪本拉登的大数据公司 Palantir 完成新一轮7亿美元融资,估值达到200亿美元,颇受资本和市场青睐.         近日,又来了一家的大数据营销与推广厂商数据说DataShuo.         毫无疑问大数据在这个时代越来

IDC周震刚:中国大数据市场的十大预测

2012年7月24日,主题为"芯动大数据 智领大机遇"的英特尔大数据论坛在北京举行.会上,IDC中国企业级系统与软件研究部高级研究经理周震刚分享了大数据市场的观察. IDC中国企业级系统与软件研究部高级研究经理周震刚 周震刚表示,IDC一直把大数据.云和移动以及社交这四个主题当做未来IT的主要方向.IDC在大数据方面已经做了大概三四年的研究,IDC中国从去年开始对大数据市场做了深入研究. 什么是大数据?--四个"V" 周震刚介绍道,IDC对大数据的定义是四个&quo

云计算一周热文回顾:大数据成功预测美国大选

大数据成功预测美国大选 显然,"大数据"并不真正关心谁来当选下一届美国总统.不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大.本次的成功预言,展示了大数据强大的能量. 统计模型在过去的几个星期里一直关注纽约时报FiveThirtyEight的博客作者和统计学家Nate Silver引导的热门话题(甚至可以说是争论).Silver已经成为本次争议的焦点人物,在"旋风般"地宣传他的新书的同时,他的模型预测:奥巴马有超过80%的机会赢得周二

开心贷周治翰:大数据是互联网金融未来的方向

CNET科技资讯网 6月5日 南京消息(文/梁议元): 6月5日,在2015互联网高峰论坛紫金之巅的演讲台上,江苏省互联网金融协会副会长兼秘书长.开心贷的副总经理周治翰做了题为<互联网金融的创新与自律>的演讲. 周治翰的主要观点是互联网进入金融行业可以带来更公平更高效地对接.并且他表示,未来大数据是互联网金融的发展方向. 互联网金融的从业者从事的是"一份很有前途的职业".周治翰认为,互联网金融可以在投资端和借款端之间实现很大的利润空间. 他给出了一组数据:美国十年期存款利率

iDoNews 专栏:扒皮洗地,这年头没有水军怎么混江湖

导言:厂商无论是和对手竞争还是给自己宣传,只有挑起矛盾是非来,才会有人关注. iDoNews 业内人说 第488期 12月3日 ( 微信号 iLoveDonews ) 自从一篇"扒皮"陈欧的文章横空出世后,陈欧已经很久没有露面了,在各种媒体上你很少再看到这个一脸励志的CEO讲述自己的奋斗和梦想,靠着帅气的外表迷倒一大片女性粉丝. 不过在这样一个看脸的世界里,安静地做一个美男子也是极好的,无论外界如何流言蜚语,女性粉丝对陈欧的爱还是不变的.据闻,在聚美优品总部门口,每天都有许多来自全国各

扒皮娱乐如何赚钱 扒皮娱乐赚钱的教程

扒皮娱乐赚钱方法: 在扒皮娱乐中只要注册帐号然后进行分享即可赚钱了,非常的简单. 扒皮娱乐怎么赚钱? 1.进入扒皮娱乐中,随便选择进入一个栏目,效果如下所示 2.如下所示然后我们进入到自己喜欢的爆料栏目,选择你感兴趣的话题,点击分享,就有可能捡到钱哦 3.在个人中心中就就可以看到你的佣金了哦! 好了上面就是小编为各位整理的关于这款扒皮娱乐app如何来赚钱了,其实就是分享赚钱没有其它的方法了,希望此文章能够对各位带来帮助.

大数据:从因果分析到相关性分析

大数据已经不再是计算.统计学科的专宠,商学院开始的广泛应用,表明大数据正式进入各行业的广泛应用.统计学家纳特·西尔弗在著名的<信号和噪声>一书中说:"大数据中大多数都是不相干的噪音.除非有很好的技术信息进行过滤和处理,否则将惹上麻烦." 杜克大学富卡商学院今年秋季开始招收大数据商业分析方向的硕士生,西安交通大学管理学院也将录取海外大数据分析的博士生作为新录取教职人员的重点之一.大数据已经不再是计算.统计学科的专宠,商学院开始的广泛应用,表明大数据正式进入各行业的广泛应用.

阿里亮相网络安全周 大数据共建生态安全

"钱盾"APP为用户提供赔付额高达120万的防欺诈险,"阿里聚安全"覆盖客户终端数高达8亿,"御城河"每天帮助服务商分析1.8亿次核心数据访问行为并拦截风险,阿里云保护着中国境内35%的网站,互联网安全志愿者联盟10年间实现15亿次举报--9月19日,阿里巴巴集团亮相2016国家网络安全宣传周,首次向外界全面展示其作为亚洲市值领先互联网公司在安全领域的强大防护能力和布局. "网络安全是现代商业发展的基础设施,要真正解决安全问题,核心要靠