2020最佳AI新基建年度榜
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给汪思颖
发送

0

模式识别与机器学习第一讲(下)

本文作者:汪思颖 2017-09-30 17:48
导语:本文主要涉及到一些概率论的内容。

雷锋网 AI科技评论按,本文作者Frankenstein,首发于知乎专栏闲敲棋子落灯花,雷锋网(公众号:雷锋网) AI科技评论获其授权转载。

本文接模式识别与机器学习第一讲(上)。关键词:随机变量、条件概率、边际概率、sum rule、product rule、贝叶斯公式、先验概率、后验概率、独立、概率质量函数、概率密度函数、累计分布函数、多元分布、换元、期望、条件期望、方差、协方差。

1.2 Probability Theory

动机:模式识别里的一个关键概念是不确定性。不确定性的来源有两个:测量的噪声以及数据集大小有限。概率论提供了一种量化和操作不确定性的工具,是模式识别的根基之一。当我们同时运用概率论和决策论,我们可以基于给定信息做出最优预测,无论信息是否完整、明确。

如没有特别强调,以下模式识别与机器学习第一讲(下)均表示随机变量。严格地说一个随机变量模式识别与机器学习第一讲(下)是一个从样本空间(sample space, 潜在结果的集合)模式识别与机器学习第一讲(下)到可测空间(measurable space)模式识别与机器学习第一讲(下)的可测函数(measurable function)。这涉及到测度论的知识,远远超出了本书对读者数学知识的假设。鉴于我们这里不追求严格的定义,可以认为一个随机变量是一个可以从一个集合中取不同值的变量。


条件概率模式识别与机器学习第一讲(下)表示已知模式识别与机器学习第一讲(下)的情况下,模式识别与机器学习第一讲(下)发生的概率,被称为给定模式识别与机器学习第一讲(下),模式识别与机器学习第一讲(下)的条件概率。我们可以把这一定义拓展到给定多于一个条件的情况下如模式识别与机器学习第一讲(下)


sum rule: 模式识别与机器学习第一讲(下), 这里的模式识别与机器学习第一讲(下)常被称为边际概率(marginal probability),因为它可经由取便其它变量(如模式识别与机器学习第一讲(下))的所有可能值时,计算模式识别与机器学习第一讲(下)与它们的联合分布的概率的总和来得到。

product rule: 模式识别与机器学习第一讲(下)


symmetry property: 模式识别与机器学习第一讲(下)

基于product rule和symmetry property,我们可以得到大名鼎鼎的贝叶斯定理/公式(Bayes' theorem):模式识别与机器学习第一讲(下)。由sum rule, product rule和symmetry property可得模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)。因此上式中模式识别与机器学习第一讲(下)可被看做使左边取所有可能模式识别与机器学习第一讲(下)值的条件概率之和为1 的归一化常数。

sum rule,product rule以及symmetry property像条件概率一样可以被拓展到多于两个随机变量的情况。

贝叶斯定理的一个重要解释涉及先验概率(prior probability)和后验概率(posterior probability)。通俗地讲,先验概率是我们一无所知的情况下根据经验、常规情况计算的,后验概率是在我们得到了新的信息情况下对先验概率进行的修正,更加准确。我们可以考虑模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)的先验概率而模式识别与机器学习第一讲(下)为知道模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)的后验概率。


独立模式识别与机器学习第一讲(下)为两个随机变量,如果模式识别与机器学习第一讲(下),我们称模式识别与机器学习第一讲(下)独立于模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)独立于模式识别与机器学习第一讲(下)或者模式识别与机器学习第一讲(下)彼此独立。注意这种情况下模式识别与机器学习第一讲(下)。我们还会经常见到两两独立(pairwise independence,一个随机变量的集合中任取两个随机变量都彼此独立)和彼此独立(mutually independence,对于一个随机变量的集合模式识别与机器学习第一讲(下),它们一起的联合分布概率等于它们各自的分布概率之积: 模式识别与机器学习第一讲(下))。


1.2.1 Probability densities

随机变量有离散型和连续性两种。离散型随机变量定义在事件的离散集合上(如筛子的点数,硬币的正反等等),连续型随机变量定义在事件的连续集合上(如区间)。就像离散型随机变量与概率质量函数(probability mass function)相关联一样,连续型随机变量与概率密度函数(probability density function)相关联。

a. 概率密度函数模式识别与机器学习第一讲(下)具有以下特点:

  • 模式识别与机器学习第一讲(下);

  • 模式识别与机器学习第一讲(下);

  • 模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)的概率为模式识别与机器学习第一讲(下)


b. 换元/变量选择

给定模式识别与机器学习第一讲(下)的概率密度函数模式识别与机器学习第一讲(下),令模式识别与机器学习第一讲(下),则有模式识别与机器学习第一讲(下)。一个相关的结果是概率密度函数的最大值取决于变量的选择。


c. 累积分布函数(cumulative distribution function)

模式识别与机器学习第一讲(下)的概率为模式识别与机器学习第一讲(下),模式识别与机器学习第一讲(下)被称为累积分布函数。模式识别与机器学习第一讲(下)


d.多元分布

考虑多个连续型随机变量的联合分布。假设我们有模式识别与机器学习第一讲(下)个连续型随机变量模式识别与机器学习第一讲(下),我们可以用一个向量把它们“封装”起来:模式识别与机器学习第一讲(下)使得模式识别与机器学习第一讲(下)。如此得到的概率密度函数仍然要满足 a 部分的特点。我们同样也可以考虑离散型随机变量和连续型随机变量的联合分布。


1.2.2 期望(expectation)和协方差(covariance)

期望:函数模式识别与机器学习第一讲(下)在概率分布模式识别与机器学习第一讲(下)下的平均值被称为模式识别与机器学习第一讲(下)的期望,用模式识别与机器学习第一讲(下)表示。

  • 对于离散型随机变量,模式识别与机器学习第一讲(下)

  • 对于连续型随机变量,模式识别与机器学习第一讲(下)


给定概率分布采集到的模式识别与机器学习第一讲(下)个数据点: 模式识别与机器学习第一讲(下),我们可以近似计算模式识别与机器学习第一讲(下)的值为模式识别与机器学习第一讲(下)。由大数定理可知,随着模式识别与机器学习第一讲(下),这一近似逼近模式识别与机器学习第一讲(下)


当我们考虑多变量函数的期望时,我们可以在模式识别与机器学习第一讲(下)右下角加一个下标表示关于哪个随机变量取期望,如模式识别与机器学习第一讲(下)表示模式识别与机器学习第一讲(下)关于模式识别与机器学习第一讲(下)的期望。


条件期望(conditional expectation)模式识别与机器学习第一讲(下)在条件概率分布模式识别与机器学习第一讲(下)下的平均值被称为模式识别与机器学习第一讲(下)的条件期望,用模式识别与机器学习第一讲(下)表示。

  • 对于离散型随机变量,模式识别与机器学习第一讲(下)

  • 对于连续型随机变量,模式识别与机器学习第一讲(下)


方差(variance)模式识别与机器学习第一讲(下)的方差为模式识别与机器学习第一讲(下)。可以认为方差衡量了模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)附近的变化性。


协方差(covariance):对于任意两个随机变量模式识别与机器学习第一讲(下),它们之间的协方差定义为模式识别与机器学习第一讲(下),它反映了模式识别与机器学习第一讲(下)一起变化的程度。

  • 一个随机变量与其本身之间的协方差等于其方差。

  • 模式识别与机器学习第一讲(下)彼此独立时,模式识别与机器学习第一讲(下)

  • 模式识别与机器学习第一讲(下)为两个随机变量的向量时,设模式识别与机器学习第一讲(下)含有模式识别与机器学习第一讲(下)个元素,模式识别与机器学习第一讲(下)含有模式识别与机器学习第一讲(下)个元素模式识别与机器学习第一讲(下),此时模式识别与机器学习第一讲(下)实际上是一个模式识别与机器学习第一讲(下)的矩阵,并且矩阵中第模式识别与机器学习第一讲(下)行的第模式识别与机器学习第一讲(下)个元素代表了模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)之间的协方差。

  • 对于任意一个随机变量的向量模式识别与机器学习第一讲(下)模式识别与机器学习第一讲(下)

1.2.3 Bayesian probabilities

这一节可以用一个问题来概括:什么是概率?之前知乎上也有类似的讨论:概率(Probability)的本质是什么? - 知乎

  • 庞加莱说,“概率仅仅是我们无知程度的度量,据定义,我们不晓得其定律的现象,都是偶然现象”。

  • 不少数学家说,概率是定义在模式识别与机器学习第一讲(下)-代数上,值域为[0, 1]的测度。

  • 频率论者(frequentist古典统计学者)说,概率是随机、可重复事件的出现频率。

  • 贝叶斯论者(Bayesian)说,概率提供了一种对不确定性的量化。

其它参考内容:

DS-GA 1003关于L1, L2正则化的slides:https://davidrosenberg.github.io/mlcourse/Lectures/2b.L1L2-regularization.pdf

雷锋网版权文章,未经授权禁止转载。详情见转载须知

模式识别与机器学习第一讲(下)

分享:
相关文章

文章点评:

表情

编辑

关注AI学术,例如论文
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说