薛定谔的佛与深度学习中的因果

《寻梦环游记》看哭了许多人,小男孩米格踏过花瓣桥,也就踏入了既生又死的状态,出现在他眼前的,是恢弘的亡灵世界。如果人世间没有人再记得,骷髅人也将在亡灵世界烟消云散,这是人存在的本来景象吗?玛雅人祭奠的圣井,真的是通往亡灵世界的入口吗?玛雅人是不是已然到达了传说中的梵境?

紧跟着玛雅人到达梵境的,是现在的一批90后。《第一批90后已经出家了》称,办公室的90后已经找到人生的新方向,宣布成佛,“有也行,没有也行,不争不抢,不求输赢”,这是真真正正的梵境,是物我两忘、无生无死、无真无假的量子存在。这已经无限接近薛定谔心目中的生命体验(life):“......‘我’这个人,如果有,那依照自然规律控制了‘原子运动’”;“我”的定义并非是经历体验的收集,而“在收集它们的画布之上”;如果催眠师能成功遮闭所有早期记忆,就没有个人存在性的损失——“也将不曾有是”。这也是印度教意义上的佛。

统计学家眼中的佛

这些表述出现在薛定谔1944年出版的书《What is Life?》,薛定谔说,生命是由负熵喂养大的,后来更正为,自由能才是生命的源泉。薛定谔眼里的生命就是一团活生生的自由能,也是普里高津世界里,不断获取自由能的开放的耗散结构。他既是《人民日报》鼓励年轻人做的、不屈不挠的“斗战胜佛”, 也是悲悯众生、大慈大悲的观世音菩萨。而统计学家眼里的佛,却应该是这条神秘的钟形曲线。

没错,这个神秘的钟形,就是伟大的高斯分布,她是佛的身姿,无时不有,又无处不在。中心极限定理(Central Limit Theorem)告诉我们,即使你不能描述单一的随机事件的发生,大量这些单一随机事件的群体行为却服从高斯分布。高尔顿设计了一个钉板实验,切实验证了这条曲线,并从统计的观点解释了生物遗传现象;1994年美国畅销书《钟形曲线》(The Bell Curve)则根据大量测试数据,得出东亚人智商最高的客观的结论;不一而足。这或许就是“一花一世界,一叶一如来”的统计学解释。

高斯曲线有着优美的身形,无处不在的神秘感,还有着倔强的性格:打碎了,揉烂了,被傅里叶变换了,仍然还坚持自我。两个高斯分布的独立变量 X,Y 的和 X+Y 或者差 X-Y,服从另一个高斯分布:

反之也成立,1936年 Cramer 证明了两个独立变量 X,Y 和(X+Y)如果服从高斯分布,则X,Y也分别服从高斯分布。

在傅里叶分析中,人们观察到,合适方差情况下,高斯分布是傅里叶变换算子的特征向量,也就是说高斯分布代表着她自己的频率分量。举个例子,如下的方程式就完美地将高斯分布与她的傅里叶变换关联。佛都是顿悟了自身的觉悟者。

最大熵原理说:一个封闭的有固定内部能量的系统,平衡态时候熵最大;而最小能量原理则告诉我们:一个封闭的有固定熵的系统,平衡态时候能量最小。这其实是一件事情的两种不同的说法。这引出了高斯曲线更奇妙之处,她可以在给定能量的前提下,最大化系统的熵。对一瓶给定温度的气体(能量固定),研究发现某个粒子按照某个速度运动的可能性服从高斯分布。

“事物由不同层次的随机变量展现出来的信息来表达,不同层次上的随机变量携带不同的信息,共同组合影响上一层的随机变量的信息表达,而随机变量对外表达的信息则取决于该随机变量的条件概率分布”。底层的多个独立的随机变量,如果都服从高斯分布,根据上文描述的特性,可以推断,一层层堆叠构成上层的随机变量之后,仍然服从高斯分布。而这个多个独立的服从高斯分布的随机变量的堆叠过程,就是典型的高斯过程。高斯过程是高斯概率分布在随机函数空间的表现形式。

深度学习中的因果

菩萨畏因,众生畏果。NIPS 2017上,Ali Rahimi开撕,现在的深度学习是重果不重因的炼金术,Yann LeCun则反驳说:如果你吃了一个鸡蛋觉得味道不错,何必知道是哪个母鸡下的呢?!(原话不是这样的,这是笔者蹩脚的翻译)。Ali对于没有理论依据的深度学习结论的忧虑,展现出其菩萨的一面:菩萨深知因果循环,所以主张从源头上约束,也就是起心动念时都要看好,莫种恶因;LeCun与众生不识因果,若种下恶因,果报来时悔之晚矣。

Bayesian学派的解决方案看起来是更接近因果的,他们从先知后觉的Bayes推理(Bayesian Inference)入手:

其中,p(⍬) 是在我们没有看到数据之前,一个参数的先验概率;而 p(D|⍬) 称为似然(likelihood),它是数据 D 在给定 ⍬ 情况下的概率分布。如果将Bayesian推理应用到深度神经网络中,人们就可以获取在给定训练数据集的情况下,神经网络权重 W 的后验概率分布 p(W|D) :

进一步,人们还可以得到神经网络输出的后验概率、不同大小的神经网路,以及这些不同的神经网络对应的输出。

如果我们再假定:p(w) 先验分布为高斯分布,训练后的目标数据也遵循高斯分布,可以推导出 p(w|D)的形式,然后最大化 p(w|D),发现其损失函数是通过权值衰减(weight decay)最小化的, 这是现代神经网络算法中优化最大似然的常见方式。于Bayesian推理而言,最大似然就是找到一组权重 w*,使得数据集 D 的出现的可能性最大:Max (p(D|w*)) 。而学习这个权重w,就是不断看到训练数据后,持续改变我们原来对权重参数的认知。

《薛定谔的滚与深度学习中的物理》一文中,笔者整理过,最大似然方法里“似”的“然”,就是一种最低自由能的状态,或者说对外展现出最大信息熵的状态。而神经网络一层层提取信息的过程,就是尺度重整化(Scale Renormalization):“合理的尺度重整化保持了系统哈密尔顿自由能的不变性……每一次尺度变换后,自由能保持不变……能量的概率分布不变……重整化群给出了损失函数,也就是不同层的F自由能的差异,训练就是来最小化这个差异。”Bayesian推理与深度学习两者,在这点上殊途同归,都遵循这个物理本质。

Ali想要的因果,显然不仅仅是其中的物理原理,这些人类已有的观测结论。笔者对于让机器真正理解因果的好奇,也是远远胜过发明永动机或者统一相对论与量子力学。随机变量相互独立且遵循高斯分布是很强的假设,What if p(w) 不是高斯分布呢? What if 这些随机变量不是独立的呢?目前,神经网络还不会主动问“What if”这样的问题,会问的,只有人和佛。

从炼金术走向科学:强人工智能,需要深谙因果

同一个论坛上,图灵奖得主、贝叶斯之父 Judea Pearl 的报告《机器学习的理论障碍》(Theoretical impediments to machine learning),澄清了这个问题,同时也抛出了老人家对于让机器理解因果的深刻见解:看到(Seeing)是相关(Association P(y|x) ),而做到(Doing)是介入(Intervention P(y|do(x),z) ),想象(Imagining)是反设事实(Counterfactuals P(yx|x',y') )。针对因果关系的不对称性,Judea提出可以丰富概率论的数学语言,将Bayesian Network 发展为 Causal Network,从而也可以将基于归纳的炼金术,发展成基于演绎的因果推理。

正如Judea在大会上总结的:缺乏现实模型的数据科学可能是统计学,但几乎不是科学;人类级别的强人工智能不可能从 model-blind 的学习机器中出现。也就是说,想要强人工智能,深谙因果是绕不过去的门槛。这里提一下,所有现在的 Chat-Bot 聊天机器人或智能客服,都还没有跨过这个门槛。Judea讲座是NIPS上的一股清流,无奈曲高和寡。何时才能“曲高”不“和寡”?

夸张一点说:世界上的万事万物都只有两种状态:高斯分布或去往高斯分布的路上,除非……,除非有一种神秘的力量、自由的能量,阻止这个趋势。这种神秘的力量,是地球的太阳,是普利高津眼里的耗散结构,是释迦牟尼身边的菩提树,是世人应该有的修行。Judea在儿子Daniel被恐怖分子斩首后,为缓解各民族之间的仇恨多番奔走,成了他晚年的修行。每个人都在做自己的人生修行,修行就是去高斯的过程,其中应有儒家的入世,道家的淡然,佛家的悲悯。To be,or not to be? Remember me!? Fine, Anyway.

参考资料:

  • http://www.science4all.org/article/shannons-information-theory/
  • http://dlab.clemson.edu/11._Erwin_Schrodinger_-_What_is_Life__1944_.pdf
  • https://en.wikipedia.org/wiki/Principle_of_minimum_energy
  • https://www.cs.cmu.edu/afs/cs/academic/class/15782-f06/slides/bayesian.pdf
  • http://www.askamathematician.com/2010/02/q-whats-so-special-about-the-gaussian-distribution-a-k-a-a-normal-distribution-or-bell-curve/
  • https://www.zhihu.com/question/263886044/answer/274543455
  • http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf

作者简介

王庆法,中国东信CTO,首席数据官联盟专家组成员,曾就职于斯伦贝谢、IBM、微软、阳光保险等知名企业的研发部门16年,在传统企业数据、大数据、机器学习、深度学习以及云计算等领域积累了丰富的软件开发、架构设计、技术管理、产品创新以及孵化落地的经验。

原文发布时间为:2017-12-18

本文作者:王庆法

原文链接:薛定谔的佛与深度学习中的因果

时间: 2024-08-02 15:40:47

薛定谔的佛与深度学习中的因果的相关文章

薛定谔的滚与深度学习中的物理

最近朋友圈里有大神分享薛定谔的滚,一下子火了,"当一个妹子叫你滚的时候,你永远不知道她是在叫你滚还是叫你过来抱紧",这确实是一种十分纠结的状态,而薛定谔是搞不清楚的,他连自己的猫是怎么回事还没有弄清楚.虽然人们对于薛定谔头脑中那只被放射性物质残害的猫的生死一直众说纷纭,斯特恩·盖拉赫却在实验中,实实在在看到了,我们身处的这个物理世界的量子性,也就是既生又死.既真又假.既梦又醒.既粒又波.既此又彼的存在,按照老子的说法是,玄之又玄,众妙之门.   量子性是这个世界已知的基本特征,未来的世

薛定谔的猫——.NET 4.1 中的新基类,开源Preview中

从"薛定谔的猫"说起: 哲学家薛定谔( Erwin Schrödinger)有个关于量 子理论的一个理想实验,内容如下(懂量子物理学的园友请skip): 这个猫十分可怜,她(假设这是一只雌性的猫,以引起更多怜悯)被封在一个密室里,密室里有食物 有毒药.毒药瓶上有一个锤子,锤子由一个电子开关控制,电子开关由放射性原子控制.如果原子核衰变 ,则放出α粒子,触动电子开关,锤子落下,砸碎毒药瓶,释放出里面的氰化物气体,雌猫必死无 疑. 哥本哈根派说,没有测量之前,一个粒子的状态模糊不清,处于各

《科学》最新研究:给“薛定谔猫”第二个盒子会发生什么?

◆ ◆ ◆ 世界上有很多有名的猫,但最神秘.最难以理解的猫莫过于既死又活的"薛定谔猫".新一期美国<科学>杂志26日发表研究说,科学家在实验中制造出一种状态更加奇异的"薛定谔猫",它同时存在于两个箱子之中,这项成果朝研制实用可靠的量子计算机迈出了又一步. 根据量子力学理论,物质在微观尺度上存在两种完全相反状态并存的奇特状况,这被称为有效的相干叠加态.由大量微观粒子组成的宏观世界是否也遵循量子叠加原理?奥地利物理学家薛定谔为此在1935年提出著名的&quo

深度学习中的基础线性代数-初学者指南

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 作者介绍:Brendan Fortuner 是一名在西雅图的亚马逊的软件工程师,目前自己在人工智能方面进行研究. 上过Jeremy Howard的深度学习课程后,我意识到我在线性代数方面的不足,而这大大影响我对类似反向传播这样的概念的理解.因此我决定在这个方面花点时间,以补全这方面的知识. 本文是对线性代数的基本介绍,用于深度学习中会使用到的一些常见的线性代数操作. 什么是线性代数? 在深度学习的背景下,线性

深度学习中吉布斯采样问题

问题描述 深度学习中吉布斯采样问题 在同一个RBM下采样,对与所有样本来说权值矩阵应该是相同的,也就相当于马尔科夫链中转移矩阵相同.那么达到细致平稳条件时,所有的样本是不是都会成为相同的值?因为不同的样本只是代表不同的初始值罢了?一直对这块很迷惑.

深度学习中常见的几个基础概念

  深度学习中常见的几个基础概念   1. Linear regression :   Linear regression 对监督学习问题来说, 是最简单的建模形式. 上图蓝色点表示 training data point, 红色的线表示用于拟合训练数据的线性函数. 线性函数的总的形式为: 在代码中表示这个模型, 可以将其定义为 单列的向量 (a single column vector) : # initialize variable / model parameters.  w = tf.V

深度学习中的奇怪循环 你知道几个?

Credit: Escher https://www.esmadrid.com/en/whats-on/escher-gaviria-palace 道格拉斯·霍夫斯塔特(Douglas Hofstadter)在他的著作<我是一个奇怪的循环>中提出了这个看法: 最终,我们能够自我感知.自我创造.自我参照. 他将这种自我参照的机制称为思想独特的属性.这个奇怪的循环是在层次结构中跨越多个层次的循环系统.顺着这个循环移动,人们会重新回到自己最初开始的地方. 巧合的是,这个"奇怪的循环&quo

深度学习中的“深度”究竟怎么理解?

介绍 为了研究神经网络,我们必须要对什么网络是什么有一个更直观的认识. 一.基本变换:层 神经网络是由一层一层构建的,那么每层究竟在做什么? 数学式子:,其中是输入向量,是输出向量,是偏移向量,是权重矩阵,是激活函数.每一层仅仅是把输入经过如此简单的操作得到. 数学理解:通过如下 5 种对输入空间(输入向量的集合)的操作,完成 输入空间 -> 输出空间 的变换 (矩阵的行空间到列空间). 注:用 "空间" 二字的原因是被分类的并不是单个事物,而是一类事物.空间是指这类事物所有个体

LSTM长短记,长序依赖可追忆(深度学习入门系列之十四)

系列文章一入侯门"深"似海,深度学习深几许(入门系列之一)人工"碳"索意犹尽,智能"硅"来未可知(深度学习入门系列之二)神经网络不胜语, M-P模型似可寻(深度学习入门系列之三)"机器学习"三重门,"中庸之道"趋若人(深度学习入门系列之四)Hello World感知机,懂你我心才安息(深度学习入门系列之五)损失函数减肥用,神经网络调权重(深度学习入门系列之六)山重水复疑无路,最快下降问梯度(深度学习入门系列