多重角度解读:贝叶斯推理是怎么工作的

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译。

以下为译文:

贝叶斯推理是怎么工作的 

贝叶斯推理是一种从数据中获得更清晰预测的方法,当没有足够多想要的数据时,并想获得这些数据全部的预测强度时,贝叶斯推理是特别有用的。

虽然贝叶斯推理有时候被描述得有些让人敬畏,但它既不是魔法也不神秘。尽管在数学公式上可以获得详细的解释,但其背后的概念是完全可以获得的。总之,贝叶斯推理允许你从数据中通过折叠已经知道的答案来作出更强的结论。

贝叶斯推论是基于托马斯·贝叶斯的想法,托马斯·贝叶斯是一位不墨守成规的长老会牧师,他写过两本书,一本是关于神学,另外一本是关于概率。他的作品包括现在著名的贝叶斯定理的原始形式,已经被应用到推理、基于教育的猜测技术术语等问题上。贝叶斯思想的流行源自另外一位牧师——理查德·普莱斯。他看到贝叶斯定理的意义后、将其提炼并出版,贝叶斯推理更加准确和历史的叫法是贝叶斯定理贝叶斯-普莱斯规则。

在电影院中应用贝叶斯推理

 

想象下在电影院中有一个影迷丢失了电影票,上图是他们从后面看到的样子,你想获得他们的注意,只知道他们有长头发,但无法区分他们的性别,你会喊出“对不起,夫人”或者“对不起,先生”吗?考虑到你知道你所在区域男女的发型,你可能假设这是一个女人。(这种简化中,只有头发长度和性别两个特征)。

现在考虑这个人在男卫生间排队后情形的变化,有了这个额外的部分信息,你可能会认为这是一个男性。这种使用常识和背景知识是不需要思考就能得到的。贝叶斯推理是在数学上捕获这些常识与背景知识,以致于使得我们可以做出更准确的预测。

 

数字化电影院困境,假设在剧院大约有一半男人一半女人。总共100人,50人是男性,50人是女性。在女性中,一半留长发(25)和一半(25)短发。在男性中,48人有短发和2人有长发。由于有25个长发女性和2个长发男性,因此猜测电影票的持有者为一名女性是的假设是安全的。

 

假设有100人在男卫生间排队,其中是98名男子和陪伴其伴侣的2名女性。刚才的2名女性中长发短发各一人。男性长和短发的比例与之前一样,但是因为他们有98人,即有94名是短发和4名是长发。现在安全的赌注是票证持有者是一名男性。这是基本贝叶斯推理原则的一个具体的例子。事先知道关键的部分信息—— 电影票所有者在男子厕所外排队使得我们能够更好地预测他们。

要讲清楚有关贝叶斯推理,下面提出四个概念:概率,条件概率,联合概率和边缘概率。

概率

 

一个事件发生的概率可以通过能发生的数量除以可能发生的总数。一个影迷是女性的概率是50名女性/100观众 即0.5或50%的概率。这同样适用于男性。

 

男子厕所排队等候的情况分解到0.02的概率为妇女,0.98的概率为男性。

条件概率

 

条件概率回答这个问题:“如果我知道,一个人是名女性,她有长头发的概率是多少?”条件概率的计算方法与概率一样,但他们只是看的所有例子中的一个子集—— 那些符合一定的条件。在这种情况下,P(长发|女性),假设她是个女性,其有长头发的概率是多少,等于女性有长头发的数量除以女性的总数。这会变为0.5,不管我们是否考虑到男卫生间排队或是在整个剧院。

 

根据同样的数学公式,假设他是名男性,其有长头发的条件概率P(长发|男性)是0.96,不管他们是否在排队。

 

关于条件概率,要记住的的一个重要的事情是,P(A | B)与P(B | A)是不一样的。例如,P(可爱|小狗)与P(小狗|可爱)不同。如果我拿着的是一只小狗,它很可爱的概率是非常高的。如果我手里拿的东西是可爱的,是一只小狗的概率中等偏低,因为这也可能是小猫,兔子等。

联合概率

 

联合概率是回答这个问题的“某人是女性且是短发的概率是多少?”发现这是个两步过程。首先,专注于某人是一个女性,P(女)的概率。然后假设她是一名女性,其是短头发的概率P(短发|女)。通过乘法结合这些给定的联合概率,P(女子短发)= P(女)* P(短发|女)。使用这种方法,可以计算一下,我们已经知道的观众中(女人长头发)是0.25,但在男卫生间排队P(女人长头发)为0.01。

 

P(男子留长发)是所有观众之间的0.02,但在男子厕所排队情况下为0.04。

 

与条件概率不同,联合概率不关心顺序。P(A和B)与P(B和A)是相同的,即有牛奶和果冻甜甜圈的概率与有果冻甜甜圈和牛奶的概率是相同的。

边缘概率

 

边缘概率为了回答问题“某人有长头发的概率是多少?”,为了解决这个问题,我们必须把所有不同的方式的概率加起来,长头发男性加上长头发的女性概率。加起来两个联合概率后概率P(长发)为0.27,但在男卫生间排队情况下为0.05。

贝叶斯定理

真正关心的部分是想回答这样的问题:“如果我们知道一个人有长头发,那这个人是女性(或男性)的概率是多少?”这是一个条件概率P(男人|长发),其相反的概率我们已经知道P(长发|男性),但由于条件概率是不可逆的,目前不能知道任何有关新的条件概率的事情。

辛运的是托马斯·贝叶斯注意到

记住是如何计算联合概率后,可以写出等式P(男性长头发)和P(长头发和男性)。因为联合概率是可逆的,这两样东西是相等的。

 

使用一点代数知识可以解决所关心的P(男性|长头发)这个问题。

 

用A和B代替“男性”和“长头发”,这样就得到了贝叶斯定理。

 

最后解决电影票困境,必须将贝叶斯定理应用到我们的问题中。

 

首先,需要展开边缘概率P(长发)。

 

然后计算出一个人是男性的概率,假设他们有长头发,对于在男卫生间排队的观众而言,P(男性|长发)为0.8。这证实了电影票的丢失者可能是男性。贝叶斯定理已经占据了我们对形势的直觉。最重要的是它已经结合了我们的预先存在的知识——在男卫生间排队更多的是男性。使用这种先验知识,它更新了关于这种情况的信念。

概率分布

利用贝叶斯推理可以很好的解释像电影院困境这样的例子并显示其活动的机理。然而在数据科学应用上,它最常用来解释数据。通过在测量中提取先验知识,可以利用小数据集得出更强的结论。下面将展示如何工作的细节,但需要明确所说的“概率分布”。

设想下一壶咖啡刚好有足够位置来填充一杯的概率是多少。如果只有一个杯子,那么填补是没有任何问题的,但如果有一个以上的话,你必须决定如何分配这么多杯的咖啡。但是你喜欢的话,你可以把它分解,只要你把所有的咖啡倾倒进一个杯子或其他。在电影院,一个杯子可能代表一个女性,另外代表的是男性。

 

或者,我们可以采用四个杯子来代表性别和头发的长度的所有组合的分布。在这两种情况下,咖啡总量加到一个杯子里。

 

通常情况下,我们设置这些杯子并排在一侧,并把咖啡量看成是一个柱状图。其分布显示了我们对这种情况信服的强度。

 

如果抛一枚硬币并隐藏结果,那么你的信念会被均匀分到头和尾巴之间。

 

如果掷骰子并隐藏结果,那么你对顶部的数字的信念会均匀地分到六个面之间。

 

如果买了强力球才彩票,你认为赢家可能性是几乎接近于零。硬币翻转,投骰子,强力球彩票等结果—— 这些都是测量和收集数据的例子。

毫不奇怪的是你还可以对收集的数据保持信念。考虑在美国成年人的高度。你对他们身高的信念看起来像上面的图片。这说明一个信念,即这个人大概是在150和200厘米,180和190厘米的可能性最大。

 

分布可以被分解成更细的等级,你可以看成是将少量咖啡分别倒入更多的杯子去获得更细的信念集。

 

最终,你需要虚杯的数量变得如此之大以致于这个类推被分解。在该点的分布是连续的。修改了下相关的数学知识,但基本思想仍然是有用的。它显示你的信念是如何分配的。

现在用概率分布描述,可以用贝叶斯定理来解释数据。

 

 

在宠物医院中的贝叶斯推理

由于狗大范围的扭动造成很难得到准确的体重读数,而得到一个准确的读数是很重要的,因为如果体重提升了,必须降低其进食量,反之亦然。

在最后一次称重中,获得了三个测量值,分别为13.9磅、17.5磅和14.1磅,可以计算出其平均值,标准差和标准误差并得到狗的实际体重分布

 

   这种分布表明使用此方法对狗体重的信念。它是平均值为15.2磅和标准误差为1.2磅的正态分布。实际测量结果显示为白线。不幸的是这条曲线的  宽度是不合适的。而在峰值在15.2磅,概率分布表明,它可以很容易地低至13磅或高达17磅。太宽的范围以致于作出任何一种决定都是自信的。当面  对这样的结果时,通常是返回并收集更多的数据,但在某些情况下,这是不可行的或过于昂贵。

通过使用贝叶斯定理,这是使小数据集尽可能的有用。在我们应用它之前,是非常有必要重温下公式,并回顾各种术语。

 

用“w”(重)和“m”(测量)代替“A”和“B”。四个术语中的每个术语代表过程中的不同部分。

现有P(w),表明先验信念。在这种情况下,它表示我们认为对在称重之前狗的重量的信念。

可能性P(m|w)的,表示测量将导致产生特定重量的概率,这也被称为数据的可能性。

后部P(w|m),表示一个给定的权重的概率,考虑到我们所做的测量,这也是我们最感兴趣的内容。

数据的概率P(m),表示任何给定被测量的数据点的概率。现在我们假设这是一个常数。

在这种情况下,假定狗的重量可能是13磅、15磅、1磅或百万磅,让数据说话,假设之前先验是统一的,也就是说其概率分布的所有值是常数。这使得贝叶斯定理简化为P(w|m)= P(m |w)。

 

在这一点上,可以用狗的体重的每一个可能值并计算得到三个测量值的可能性。例如,如果狗的重量是一千磅,那么我们的测量将是极其不可能的。不过,如果其体重实际上是14磅或16磅,测量值是很有可能的。我们可以通过使用每个体重假想值计算得到测量值的可能性,即P(m|w)的。由于先验是统一的,因此也等于后验概率P(w|m)。

虽然使用了贝叶斯定理,但还是没有接近一个有用的估计。为了解决这一问题,假设先验概率为不均匀。先验分布代表了我们在采取任何测量之前对某事的信念。一个统一的先验说明我们相信每一个可能的结果是等可能的,这是很少见的情况。

 

关于狗这种案例,我确实有更多的信息,狗的最后一次体重是14.2磅,虽然胳膊不是一个非常敏感的天平,但是给我的感觉并不觉得明显重或者轻了,因此相信狗的重量约为14.2磅左右,基于这一点,假设为峰值为14.2磅位置,标准偏差为0.5磅的正态分布来表示。

 

现在知道先验知识,可以重复计算后验过程,要做到这一点,我们认为狗的体重是有确切值的可能性,假定为17磅。然后,狗确实是17磅的条件概率并与先验概率相乘,对每个其他可能的重量重复该过程。在这个例子中,在13­15磅的范围内有更多的测量体重,这是与均匀先验相反。

 

通过计算每一个可能的重量概率,产生了新的后验概率。后验分布的峰值也被称为最大后验估计或MAP,在这种的情况下,MAP为14.1磅。这比以前用统一先验知识计算是显著不同的。这也是一个更窄的尖峰,这使我们能够作出更加自信的估计。现在我们可以看到,狗的体重没有太大的改变,其进食量不会改变。

通过整合我们已经知道测量的,我们能够更自信的做出更准确的估计。贝叶斯推理使我们能够很好地利用一个非常小的数据集。我们事先分配17.5磅测量值有一个极低的概率。这几乎与拒绝值一样,但不是基于直觉和常识做的异常检测,贝叶斯定理使我们能够使用数学的方式做这种异常检测。

作为一个侧面说明,假设P(m)是统一的,但如果我们碰巧知道天平在某些方面有偏差,我们可以反映在P(m)中。如果天平仅报偶数或第三次尝试会生成的随机测量,我们可以人工制作P(m)以反映这一点,这会改善我们后验概率的准确性。

避免贝叶斯陷阱

狗的称重例子展示了贝叶斯推理的优点,但也有缺陷。通过对答案进行一些假设会改善我们的估计,但测量事物的整个目的是为了了解该事物。如果我们的假设已经知道了答案,那么可能会审查这些数据。

如果我们开始就设定了一个强大的事先假设,即狗的重量为13和15磅之间,如果体重实际上已经下降到12.5磅,那么将永远无法检测到该值。我们事先将零概率分配到这一结果,不管有多少次测量,每次低于13英镑获得测量将被忽略。

幸运的是,存在一些方法去对冲我们的赌注并避免盲目的估计。这种方法就是至少分配一个小概率给每个结果。如果狗的体重居然重达1000磅,我们收集到的测量结果将能够反映在后验概率中。这也是正态分布通常用作先验分布的一个原因。正态分布大部分集中在小范围成果上,不管他们扩展的有多远,它有很长的尾巴且从来不会完全变为零。

文章原标题《How Bayesian inference work》,作者:Brandon

文章为简译,更为详细的内容,请查看原文:Data Science and Robots Blog

翻译:海棠


时间: 2024-10-29 15:28:42

多重角度解读:贝叶斯推理是怎么工作的的相关文章

俗人解读 三维渲染 的工作过程

俗人解读 三维渲染 的工作过程 太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协议 转载请保留此句:太阳火神的美丽人生 -  本博客专注于 敏捷开发及移动和物联设备研究:iOS.Android.Html5.Arduino.pcDuino,否则,出自本博客的文章拒绝转载或再转载,谢谢合作. 三维渲染: 1.先有几何体坐标传入 GPU: 2.再有贴图加载: 3.同时提供纹理坐标: 4.按纹理坐标,从贴图上

企业从信息化角度解读智慧城市,难以根治城市病

你有没有体验过用扫码来代替开锁的公租自行车吗?要是没有,那你真的就OUT了. 这些散落于京城大街小巷的亮丽自行车与一般刷卡取车的公共自行车不同,这些被称为"摩拜单车"的都市新宠非常智能,既不需要办卡,也没有固定停车位.依靠互联网+大数据,手机扫码代替了开锁,单车的位置变成手机地图上的一个个点,公共自行车真正流动起来,使用变得触手可及. 交通出行的最后一公里是长期存在的难题,而在一座座正在变得越来越"智能化"的城市中,类似的难题正在通过现代化的手段被破解.中国工程院院

从经营模式、商业模型等角度解读唯品会

虎嗅注:黄若是中国电子商务骨灰级领军人物,江湖人称黄药师,原当当网首席运营官,天猫创始总经理.本文来自黄若最新著作<再看电商>.唯品会一直被人家称为妖股,两年时间股价上涨30多倍,文章从从经营模式.商业模型等角度解读唯品会,值得一读. 对于电商的投资,我有自己总结的三杯茶理论,即评估一家电商企业,一看其模式,二看其经营效率,三看其顾客留存率.在这三个方面,唯品会都有闪亮的表现. 模式:唯品会把尾货销售的模式进一步扩展,建立了其网上限时特价销售的全新定位. 经营效率:从上市文件可见,唯品会的库存

SEO角度解读网站搬家过程中的七大热点问题

网站更换空间是每个站长都可能经历的事情,因此梦东风认为这是站长的必修课程,在这里暂且称为"网站搬家"或"挪窝".网站搬家大多是因为空间主机质量问题或着空间商服务问题站长们采取的对应措施,对于使用虚拟空间的朋友来说,这种情况很正常和多见.近期我的365名店网也挪了几次窝,平时搬家换空间也经历了不少,所以梦东风对于这个话题有自己的经验和独特理解,有很多站长曾向我问起过网站搬家要注意哪些方面或者有哪些技巧,特写本文和大家分享,今天为大家讲解的是大众站长们的虚拟主机搬家问题

从西游记角度解读产品分工

现在对于产品经理的理解,还处于一个比较浮躁的过程,业界基本只宣传产品经理岗位的优点,注意力集中在产品经理可以把握产品设计的形态.把握产品的架构.却更多忽视了产品经理所应该具备的大局观和长远眼光,有些人认为只要有想法.有点子就可以了,但是一个真正好的产品经理绝对不单纯是"想点子",通过想点子挣钱那是营销大师和机场培训师. 对于一个产品经理来说,重点是如何推动产品上线.只有因为你的工作而使产品成功上线后才算是工作业绩,如果产品没有推出.上线.没有用户来用的话,你的点子再好.精力花费再多也只

以经济学角度解读云计算概念

云计算初始固定投入高,边际投入低,这导致边际成本递减,边际收益递增.云计算中,无论是基础设施.平台还是软件,都需要较高的初始固定投入.但是一旦建成,就可以反复共用而极少耗损;而每项增值业务,只要进行一个较低的边际投入,就可以展开,无须从头开发基础设施.平台和软件. 什么是云计算?现在不是没有答案,而是答案过多. 现在"云计算是什么"的答案,多到让人们搞不清什么是云计算了. 究其原因,在于人们只是归纳局部现象,只是抓住云计算这头大象的一个局部,把它当作云计算的整体. 当然,全面的归纳,比

朱近之从自己的角度解读对云计算的十大误读

云计算是个2007年第4季度才兴起的新名词.对它的定义和内涵众说纷纭,我们至少可以在网上找到100种说法,但目前还没有公认的定义.本文试图综合各家说法的优点,提出云计算定义和特点与大家商榷.对这个定义的要求:能够用最精炼的语言描述,抓住云计算的本质,覆盖当今流行的典型云计算解决方案(包括Google云计算 .Amazon云计算.Salesforce云计算.云安全等),但又能区别其它相关概念(如网格计算.并行计算等). 云计算的定义有着狭义和广义之分.狭义的云计算,指的是厂商通过分布式计算和虚拟化

从竞争角度解读刘强东内部讲话

1月1日刘强东对着2000名员工做了新年讲话.2012年营收过600亿,预计2013年过1000亿. 峰哥试图从其最大对手的角度来解读这些讲话.过去一年,阿里集团的公关费和市场费,估计最主要的部分都用到了京东头上.几个月前听李成东说,京东在北上广的销量已超过或接近天猫.阿里对京东的忌惮,由此可见. 自营b2c和平台b2c,两种业态存在着此消彼长的竞争.阿里担心的,莫过于京东依靠自营b2c建立的流量和规模,侵入平台b2c这块地盘.而后积累更大量级的流量和规模,在数据和金融上挑战阿里. 刘强东属强人

污垢去哪儿了?解读海尔“免清洗”洗衣机工作原理

近日,海尔"免清洗"洗衣机在天猫的首发上市吸引了超高人气.为何这款"免清洗"能够如此吸引眼球?人们对其火爆销售的惊叹之余,更多的是对"免清洗"洗衣机工作原理的好奇.一直以来,洗衣机都存在着因为内桶脏而导致的"二次污染"的问题.究其原因,是因为洗衣机内部,在能看得见的内桶外面还有一个套筒,洗衣服的过程中,洗涤水就在洗衣机内外桶之间进出流动,时间久了,洗衣机的内桶外壁,外桶内壁及夹层自然会沉积一层脏渍和污垢,成为滋生细菌的温床进而