模式识别与机器学习第一讲（下）

本文作者：汪思颖

2017-09-30 17:48

导语：本文主要涉及到一些概率论的内容。

雷锋网 AI科技评论按，本文作者Frankenstein，首发于知乎专栏闲敲棋子落灯花，雷锋网 AI科技评论获其授权转载。

本文接模式识别与机器学习第一讲（上）。关键词：随机变量、条件概率、边际概率、sum rule、product rule、贝叶斯公式、先验概率、后验概率、独立、概率质量函数、概率密度函数、累计分布函数、多元分布、换元、期望、条件期望、方差、协方差。

1.2 Probability Theory

动机：模式识别里的一个关键概念是不确定性。不确定性的来源有两个：测量的噪声以及数据集大小有限。概率论提供了一种量化和操作不确定性的工具，是模式识别的根基之一。当我们同时运用概率论和决策论，我们可以基于给定信息做出最优预测，无论信息是否完整、明确。

如没有特别强调，以下 $模式识别与机器学习第一讲（下）$ 均表示随机变量。严格地说一个随机变量 $模式识别与机器学习第一讲（下）$ 是一个从样本空间（sample space, 潜在结果的集合） $模式识别与机器学习第一讲（下）$ 到可测空间（measurable space） $模式识别与机器学习第一讲（下）$ 的可测函数（measurable function）。这涉及到测度论的知识，远远超出了本书对读者数学知识的假设。鉴于我们这里不追求严格的定义，可以认为一个随机变量是一个可以从一个集合中取不同值的变量。

条件概率： $模式识别与机器学习第一讲（下）$ 表示已知 $模式识别与机器学习第一讲（下）$ 的情况下， $模式识别与机器学习第一讲（下）$ 发生的概率，被称为给定 $模式识别与机器学习第一讲（下）$ , $模式识别与机器学习第一讲（下）$ 的条件概率。我们可以把这一定义拓展到给定多于一个条件的情况下如 $模式识别与机器学习第一讲（下）$ 。

sum rule: $模式识别与机器学习第一讲（下）$ , 这里的 $模式识别与机器学习第一讲（下）$ 常被称为边际概率（marginal probability），因为它可经由取便其它变量（如 $模式识别与机器学习第一讲（下）$ ）的所有可能值时，计算 $模式识别与机器学习第一讲（下）$ 与它们的联合分布的概率的总和来得到。

product rule: $模式识别与机器学习第一讲（下）$

symmetry property: $模式识别与机器学习第一讲（下）$

基于product rule和symmetry property，我们可以得到大名鼎鼎的贝叶斯定理/公式（Bayes' theorem）： $模式识别与机器学习第一讲（下）$ 。由sum rule, product rule和symmetry property可得 $模式识别与机器学习第一讲（下）$ 。 $模式识别与机器学习第一讲（下）$ 。因此上式中 $模式识别与机器学习第一讲（下）$ 可被看做使左边取所有可能 $模式识别与机器学习第一讲（下）$ 值的条件概率之和为1 的归一化常数。

sum rule，product rule以及symmetry property像条件概率一样可以被拓展到多于两个随机变量的情况。

贝叶斯定理的一个重要解释涉及先验概率（prior probability）和后验概率（posterior probability）。通俗地讲，先验概率是我们一无所知的情况下根据经验、常规情况计算的，后验概率是在我们得到了新的信息情况下对先验概率进行的修正，更加准确。我们可以考虑 $模式识别与机器学习第一讲（下）$ 为 $模式识别与机器学习第一讲（下）$ 的先验概率而 $模式识别与机器学习第一讲（下）$ 为知道 $模式识别与机器学习第一讲（下）$ 后 $模式识别与机器学习第一讲（下）$ 的后验概率。

独立： $模式识别与机器学习第一讲（下）$ 为两个随机变量，如果 $模式识别与机器学习第一讲（下）$ ，我们称 $模式识别与机器学习第一讲（下）$ 独立于 $模式识别与机器学习第一讲（下）$ 且 $模式识别与机器学习第一讲（下）$ 独立于 $模式识别与机器学习第一讲（下）$ 或者 $模式识别与机器学习第一讲（下）$ 彼此独立。注意这种情况下 $模式识别与机器学习第一讲（下）$ 。我们还会经常见到两两独立（pairwise independence，一个随机变量的集合中任取两个随机变量都彼此独立）和彼此独立（mutually independence，对于一个随机变量的集合 $模式识别与机器学习第一讲（下）$ ，它们一起的联合分布概率等于它们各自的分布概率之积: $模式识别与机器学习第一讲（下）$ ）。

1.2.1 Probability densities

随机变量有离散型和连续性两种。离散型随机变量定义在事件的离散集合上（如筛子的点数，硬币的正反等等），连续型随机变量定义在事件的连续集合上（如区间）。就像离散型随机变量与概率质量函数（probability mass function）相关联一样，连续型随机变量与概率密度函数（probability density function）相关联。

a. 概率密度函数 $模式识别与机器学习第一讲（下）$ 具有以下特点：

$模式识别与机器学习第一讲（下）$ ;
$模式识别与机器学习第一讲（下）$ ;
$模式识别与机器学习第一讲（下）$ 在 $模式识别与机器学习第一讲（下）$ 的概率为 $模式识别与机器学习第一讲（下）$ 。

b. 换元/变量选择

给定 $模式识别与机器学习第一讲（下）$ 的概率密度函数 $模式识别与机器学习第一讲（下）$ ，令 $模式识别与机器学习第一讲（下）$ ，则有 $模式识别与机器学习第一讲（下）$ 。一个相关的结果是概率密度函数的最大值取决于变量的选择。

c. 累积分布函数（cumulative distribution function）

$模式识别与机器学习第一讲（下）$ 的概率为 $模式识别与机器学习第一讲（下）$ , $模式识别与机器学习第一讲（下）$ 被称为累积分布函数。 $模式识别与机器学习第一讲（下）$ 。

d.多元分布

考虑多个连续型随机变量的联合分布。假设我们有 $模式识别与机器学习第一讲（下）$ 个连续型随机变量 $模式识别与机器学习第一讲（下）$ ，我们可以用一个向量把它们“封装”起来： $模式识别与机器学习第一讲（下）$ 使得 $模式识别与机器学习第一讲（下）$ 。如此得到的概率密度函数仍然要满足 a 部分的特点。我们同样也可以考虑离散型随机变量和连续型随机变量的联合分布。

1.2.2 期望（expectation）和协方差（covariance）

期望：函数 $模式识别与机器学习第一讲（下）$ 在概率分布 $模式识别与机器学习第一讲（下）$ 下的平均值被称为 $模式识别与机器学习第一讲（下）$ 的期望，用 $模式识别与机器学习第一讲（下）$ 表示。

对于离散型随机变量， $模式识别与机器学习第一讲（下）$ ；
对于连续型随机变量， $模式识别与机器学习第一讲（下）$ 。

给定概率分布采集到的 $模式识别与机器学习第一讲（下）$ 个数据点: $模式识别与机器学习第一讲（下）$ ，我们可以近似计算 $模式识别与机器学习第一讲（下）$ 的值为 $模式识别与机器学习第一讲（下）$ 。由大数定理可知，随着 $模式识别与机器学习第一讲（下）$ ，这一近似逼近 $模式识别与机器学习第一讲（下）$ 。

当我们考虑多变量函数的期望时，我们可以在 $模式识别与机器学习第一讲（下）$ 右下角加一个下标表示关于哪个随机变量取期望，如 $模式识别与机器学习第一讲（下）$ 表示 $模式识别与机器学习第一讲（下）$ 关于 $模式识别与机器学习第一讲（下）$ 的期望。

条件期望（conditional expectation）： $模式识别与机器学习第一讲（下）$ 在条件概率分布 $模式识别与机器学习第一讲（下）$ 下的平均值被称为 $模式识别与机器学习第一讲（下）$ 的条件期望，用 $模式识别与机器学习第一讲（下）$ 表示。

对于离散型随机变量， $模式识别与机器学习第一讲（下）$ ；
对于连续型随机变量， $模式识别与机器学习第一讲（下）$ 。

方差（variance）： $模式识别与机器学习第一讲（下）$ 的方差为 $模式识别与机器学习第一讲（下）$ 。可以认为方差衡量了 $模式识别与机器学习第一讲（下）$ 在 $模式识别与机器学习第一讲（下）$ 附近的变化性。

协方差（covariance）：对于任意两个随机变量 $模式识别与机器学习第一讲（下）$ ，它们之间的协方差定义为 $模式识别与机器学习第一讲（下）$ ,它反映了 $模式识别与机器学习第一讲（下）$ 一起变化的程度。

一个随机变量与其本身之间的协方差等于其方差。
当 $模式识别与机器学习第一讲（下）$ 彼此独立时， $模式识别与机器学习第一讲（下）$ 。
当 $模式识别与机器学习第一讲（下）$ 为两个随机变量的向量时，设 $模式识别与机器学习第一讲（下）$ 含有 $模式识别与机器学习第一讲（下）$ 个元素， $模式识别与机器学习第一讲（下）$ 含有 $模式识别与机器学习第一讲（下）$ 个元素 $模式识别与机器学习第一讲（下）$ ，此时 $模式识别与机器学习第一讲（下）$ 实际上是一个 $模式识别与机器学习第一讲（下）$ 的矩阵，并且矩阵中第 $模式识别与机器学习第一讲（下）$ 行的第 $模式识别与机器学习第一讲（下）$ 个元素代表了 $模式识别与机器学习第一讲（下）$ 和 $模式识别与机器学习第一讲（下）$ 之间的协方差。
对于任意一个随机变量的向量 $模式识别与机器学习第一讲（下）$ ， $模式识别与机器学习第一讲（下）$ 。