模式识别与机器学习第一讲（下）

本文接模式识别与机器学习第一讲（上）。关键词：随机变量、条件概率、边际概率、sum rule、product rule、贝叶斯公式、先验概率、后验概率、独立、概率质量函数、概率密度函数、累计分布函数、多元分布、换元、期望、条件期望、方差、协方差。

1.2 Probability Theory

动机：模式识别里的一个关键概念是不确定性。不确定性的来源有两个：测量的噪声以及数据集大小有限。概率论提供了一种量化和操作不确定性的工具，是模式识别的根基之一。当我们同时运用概率论和决策论，我们可以基于给定信息做出最优预测，无论信息是否完整、明确。

如没有特别强调，以下均表示随机变量。严格地说一个随机变量是一个从样本空间（sample space, 潜在结果的集合）到可测空间（measurable space）的可测函数（measurable function）。这涉及到测度论的知识，远远超出了本书对读者数学知识的假设。鉴于我们这里不追求严格的定义，可以认为一个随机变量是一个可以从一个集合中取不同值的变量。

条件概率：表示已知的情况下，发生的概率，被称为给定,的条件概率。我们可以把这一定义拓展到给定多于一个条件的情况下如。

sum rule: , 这里的常被称为边际概率（marginal probability），因为它可经由取便其它变量（如）的所有可能值时，计算与它们的联合分布的概率的总和来得到。

product rule:

symmetry property:

基于product rule和symmetry property，我们可以得到大名鼎鼎的贝叶斯定理/公式（Bayes' theorem）：。由sum rule, product rule和symmetry property可得。。因此上式中可被看做使左边取所有可能值的条件概率之和为1 的归一化常数。

sum rule，product rule以及symmetry property像条件概率一样可以被拓展到多于两个随机变量的情况。

贝叶斯定理的一个重要解释涉及先验概率（prior probability）和后验概率（posterior probability）。通俗地讲，先验概率是我们一无所知的情况下根据经验、常规情况计算的，后验概率是在我们得到了新的信息情况下对先验概率进行的修正，更加准确。我们可以考虑为的先验概率而为知道后的后验概率。

独立：为两个随机变量，如果，我们称独立于且独立于或者彼此独立。注意这种情况下。我们还会经常见到两两独立（pairwise independence，一个随机变量的集合中任取两个随机变量都彼此独立）和彼此独立（mutually independence，对于一个随机变量的集合，它们一起的联合分布概率等于它们各自的分布概率之积: ）。

1.2.1 Probability densities

随机变量有离散型和连续性两种。离散型随机变量定义在事件的离散集合上（如筛子的点数，硬币的正反等等），连续型随机变量定义在事件的连续集合上（如区间）。就像离散型随机变量与概率质量函数（probability mass function）相关联一样，连续型随机变量与概率密度函数（probability density function）相关联。

a. 概率密度函数具有以下特点：