2.7 期望
给定一个函数f[]和每个x所对应的概率Pr(x=x),函数对变量x的每个值x都返回一个值,有时希望求函数的期望输出。如果从概率分布中抽取大量样本,计算每个样本的函数,并求这些值的平均值,其结果就是期望。更确切地说,在离散及连续的情况下,一个随机变量x的函数f[]的期望值分别定义为
将这种思路推广到二元随机变量的函数f[],则有:
对于某些特殊的函数f[],期望被赋予特殊的名称(见表2-1)。这些特殊函数常用来概括复杂概率分布的性质。
表2-1 特殊函数的期望。对于某些函数f(x),其期望E[f(x)]被赋予特殊的名称。在这里,使用符号μx表示随机变量x的均值,μy表示随机变量y的均值
期望有四条性质,这些性质能够通过期望的原始定义简单证得(式(2-12))。
1.若随机变量x是常数k,则其期望是常数本身:
2.常数k与函数f[x]的乘积所得函数的期望是f[x]期望的k倍:
3.随机变量都是x时:函数f[x]和g[x]相加所得函数的期望是两个函数期望的和.
4.函数f[x]和g[y]相乘所得函数的期望是两个函数期望的乘积:
讨论
概率的规则是非常紧凑和简洁的。边缘化、联合条件概率、独立性和贝叶斯公式是本书中所有计算机视觉算法的基础。仅剩概率相关的一个重要概念——条件的独立性,这将在第10章详细讨论。
备注
关于概率更正式的讨论,鼓励读者研读一本关于该主题的书籍,例如,Papoulis(1991)。若从机器学习的视角学习概率,请参考Bishop(2006)第1章。
习题
2.1 列举出真实生活中联合分布的一个实例Pr(x,y),其中x是离散的,y是连续的。
2.2 边缘化5个变量的联合分布Pr(v,w,x,y,z),仅仅考虑变量w和y,结果将会是什么?对于v的边缘化分布结果又是什么?
2.3 证明下面等式成立:
2.4 在我的口袋里有两枚硬币。第一枚硬币是公平的,所以正面向上的似然性Pr(h=1c=1)是0.5,反面向上的似然性Pr(h=0c=1)也是0.5。第二枚硬币是不公平的,正面向上的似然性Pr(h=1c=2)是0.8,而反面向上的似然性Pr(h=1c=2)是0.2。将手伸入口袋,随机选取一枚硬币。选取任何一枚硬币的先验概率是相同的。投掷所选硬币观察到正面朝上,利用贝叶斯公式计算选取第二枚硬币的后验概率。
2.5 如果变量x和y是相互独立的,变量x和z是相互独立的,那么变量y和z是相互独立的吗?
2.6 使用式(2-3)证明,当x和y相互独立时,边缘概率分布Pr(x)与任意y的条件概率Pr(xy=y)等价。
2.7 4个变量的联合概率Pr(w,x,y,z)因式分解为:
证明若Pr(x,w)=Pr(x)Pr(w),x和w是相互独立的。
2.8 考虑骰子6个面{1,2,3,4,5,6}朝上的概率分别为{1/12,1/12,1/12,1/12,1/6,1/12}。骰子的期望值是多少?如果投掷两次骰子,两次投掷的期望值总共是多少?
2.9 证明期望的四个公式
对于最后一种情况,需要使用独立性的定义进行证明(见2.6节)。
2.10 利用习题2.9中的关系式证明以下关系式,即趋近于零的二阶矩和关于均值的二阶矩(方差)之间的关系: