中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.3 最优传输映射的逼近算法

1.3 最优传输映射的逼近算法


近年来,依随 Internet 技术的发展,人类 已经积累了大量的视觉数据,这使得估计各 种概率分布成为可能。同时,GPU 技术的发 展,使得各种统计计算方法的实现成为可能。 因此,我们迎来了机器学习的科技大潮。但 是,我们依然无法严密解释机器学习算法的 有效性。从基础理论角度而言,研究概率分 布的一个强有力工具是最优传输理论(optimal mass transportation theory),这个理论着重揭 示概率分布这一自然现象的内在规律,因此 并不从属于某个学派,也不依赖于具体的算 法。相反,这一理论会为算法的发展提供指导, 同时真正合理有效的算法(例如机器学习算 法),应该可以被传输理论来解释。

简而言之,传输理论给出了概率分布 所构成空间的几何。给定一个黎曼流形, 其上所有的概率分布构成一个无穷维的空 间:Wasserstein 空间,最优传输映射的传输 代价给出了 Wasserstein 空间的一个黎曼度 量。Wasserstein 空间中的任意两点可以用 Wasserstein 距离来测量相近程度,自然也可 以用测地线来插值概率分布。每个概率分布 有熵,沿着测地线熵值的变化规律和黎曼流 形的曲率有着本质的关系。

但在实际计算中,高维的最优传输映射, Wasserstein 距离的计算相对复杂。一个自然 的想法是降维,将高维空间的概率分布投影 到低维子空间,在低维空间上计算边际分布 之间的变换。这有些象盲人摸象,每次得到 局部信息,如果摸得充分,我们也可以恢复 大象的整体信息。

在视觉问题中,通常图像全空间的维数 非常高,计算难度较高。因此,我们可以 放弃理论上的最优性,寻找更加简单有效, 同时又和最优传输映射近似的算法。下面 我们就讨论这些更为实用的算法及其背后 的理论。

1. 直方图均衡化


2. 迭代分布传输算法


3. 投影 Wasserstein 距离梯度下降法


4. 逼近算法的局限性和脆弱性

拉东变换将联合概率分布转换成向所有 一维子空间投影所得的边际概率分布,从而 实现了降维,简化了计算。但是,如果有一 些子空间的边际分布缺失,我们无法精确恢 复原来的联合分布。在视觉问题中,每个线 性子空间被视为一个特征,向子空间投影, 等价于特征提取。

深度神经网在解决视觉分类问题中表 现出色,但是也非常容易被愚弄。如图 20 所示,人类可以轻易看出这些是非自然图像,在现实生活中不具有任何意义。但是 深度神经网络非常自信地将它们归结为训 练过的类别。如果以欣赏现代抽象艺术的 心态来研究这些图像,我们能够领会到深度神经网络分类结果的内在合理性:这些 图像的确具有它们所对应类别的内在“神 韵”。从纹理层次而言,它们和对应类别的 纹理非常“神似”;从语义层面而言,这 些图像则是无意义的和荒谬的。

对此我们可以给出一种解释,那就是投 影子空间选得不够,因此即便是在这些子空 间上边际概率分布相似,但是联合概率分布 依然相差很大。深度神经网所得到的训练集 是自然图像,图 21 所示的这些图像都在自然 图像空间之外,但是投影在所选择的子空间 后,自然图像和非自然图像无法进行分别。 由此,引发了深度神经网络脆弱性。

5. 讨论

人类的低级视觉在很大程度上依赖于统 计特性,因此可以归结为对概率分布的处理 和演算。人脑是否真的在计算最优传输映射、 计算 Wasserstein 距离?在历史上人类经常首 先发现某些数学原理,然后又发现这些原理 在生物器官上早已应用。例如,人类首先发 现了傅里叶分解原理,然后发现人类耳蜗神 经结构就是在对声音信号进行傅里叶分解; 又如,人类首先发现了保角变换(共形变换), 后来发现从视网膜到第一级视觉中枢的映射 就是保角变换,如图 21 所示。这项工作曾 经获得过诺贝尔奖。因此,如果若干年后人 们证实大脑的确是在计算概率分布之间的距 离,我们也不会觉得意外。

因此,我们相信在一些视觉应用中,深 度神经网络隐含地构建概率模型,可以直接 用概率的工具,例如最优传输理论及其各种 降维近似,直接取代神经网络,从而使得机 器学习的黑箱变得透明。

时间: 2024-09-28 01:21:07

中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.3 最优传输映射的逼近算法的相关文章

《中国人工智能学会通讯》——8.19 多目标优化中的机器学习

8.19 多目标优化中的机器学习 多 目 标 优 化 问 题 (MOP, multiobjecitveoptimization problem) 是指含有 2 个或 2 个以上目标函数的优化问题.当目标数多于 3 个时,MOP也常被称作超多目标优化问题.由于多个目标之间通常不协调甚至存在矛盾,MOP 最优解不是单个解而是一个解集.法国经济学家 V. Pareto 最早在经济福利理论研究中提出了多目标优化问题,并引入了 Pareto 最优的概念,因此这个最优解集也被称作 Pareto 最优解集[1

《中国人工智能学会通讯》——11.67 视觉目标跟踪中的表观建模研究

11.67 视觉目标跟踪中的表观建模研究 视觉目标跟踪(Visual Object Tracking)是指在图像序列中根据视频信息在空间或时间上的相关性,对特定目标进行检测.提取并获得目标的位置参数,如目标质心的位置.姿态.形状.轨迹等[1] .根据跟踪结果,可以对目标进行后续深入的分析,以实现对特定目标的行为理解,或完成更高层的任务.因此,视觉目标跟踪是解决很多计算机视觉问题的基础,具有重要的理论研究价值.此外,视觉目标跟踪已在视频监控.智能交通.人机交互.行为分析.医学图像处理等领域得到了广

《中国人工智能学会通讯》——8.18 单目标优化中的机器学习

8.18 单目标优化中的机器学习 ● 分布估计算法 分布估计算法(EDA,estimation of distributionalgorithms)是一种典型的使用了机器学习技术的EA [3] .其最大特点是不采用一般意义上的重组算子,而是显式地对一个概率分布进行采样获得新的候选解,同时在演化的过程中不断更新概率模型.EDA的性能很大程度上取决于如何构建概率模型,这是一个典型的机器学习问题.但另一方面,EDA 的目标是解决优化问题,由于在演化过程中需要反复构建概率模型,引入复杂的机器学习技术尽管

《中国人工智能学会通讯》——8.6 鸽群优化在图像处理中的应用

8.6 鸽群优化在图像处理中的应用 Duan et al [9] 将鸽群优化用于回声状态神经网络的参数优化,并将该改进后的递归神经网络算法用于图像复原,该图像复原算法可用于模糊图像复原和噪声图像复原.回声状态神经网络是一种递归神经网络,参数选择对该神经网络的性能有很大影响.首先使用正交设计策略初始化鸽群优化参数,通过对用不同程度和不同类型退化的图像进行复原以测试该图像复原算法的性能,并与多种其他图像复原算法进行了对比实验.实验结果表明,通过设置训练样本可以实验对不同程度和不同类型的退化图像进行复

《中国人工智能学会通讯》——11.45 万维网实体列表中的实体链接技术

11.45 万维网实体列表中的实体链接技术 互联网网页中包含大量的结构化实体列表,另外,一个万维网表格中的实体列也可以看作是万维网实体列表.一个万维网实体列表可能包含一些著名足球运动员的名字.一些美国畅销专辑名字或者一些著名艺术家名字.万维网实体列表中的每一项常常指代的是某些实体,该任务就是为万维网实体列表中的每一项找到其在知识库中的对应实体.该任务的输入只是一个万维网实体列表,而不包含上下文文本,但上下文文本在自然语言文本实体链接任务中是非常重要的依据,由此可以看出这个任务与自然语言文本中的实

《中国人工智能学会通讯》——8.17 为何需要机器学习

8.17 为何需要机器学习 一个算法成功的关键在于其运行机制是否与待求解问题的特性相吻合.换言之,给定一个(或一类)待求解的问题,算法设计的目的是寻求一个与该问题相匹配的算法.在过去,复杂问题的求解往往高度依赖于领域专家的先验知识.这一般又可分为两种思路,其一,利用先验知识对问题进行适度抽象和简化,将一个复杂问题转化为一个相对简单的.经典的问题(如线性规划.二次规划问题),从而可以直接利用已有的成熟算法求解:其二,不简化问题模型,直接利用先验知识设计新的算法.若将算法与问题表示为一个二元组,这两

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人