1.3 最优传输映射的逼近算法
近年来,依随 Internet 技术的发展,人类 已经积累了大量的视觉数据,这使得估计各 种概率分布成为可能。同时,GPU 技术的发 展,使得各种统计计算方法的实现成为可能。 因此,我们迎来了机器学习的科技大潮。但 是,我们依然无法严密解释机器学习算法的 有效性。从基础理论角度而言,研究概率分 布的一个强有力工具是最优传输理论(optimal mass transportation theory),这个理论着重揭 示概率分布这一自然现象的内在规律,因此 并不从属于某个学派,也不依赖于具体的算 法。相反,这一理论会为算法的发展提供指导, 同时真正合理有效的算法(例如机器学习算 法),应该可以被传输理论来解释。
简而言之,传输理论给出了概率分布 所构成空间的几何。给定一个黎曼流形, 其上所有的概率分布构成一个无穷维的空 间:Wasserstein 空间,最优传输映射的传输 代价给出了 Wasserstein 空间的一个黎曼度 量。Wasserstein 空间中的任意两点可以用 Wasserstein 距离来测量相近程度,自然也可 以用测地线来插值概率分布。每个概率分布 有熵,沿着测地线熵值的变化规律和黎曼流 形的曲率有着本质的关系。
但在实际计算中,高维的最优传输映射, Wasserstein 距离的计算相对复杂。一个自然 的想法是降维,将高维空间的概率分布投影 到低维子空间,在低维空间上计算边际分布 之间的变换。这有些象盲人摸象,每次得到 局部信息,如果摸得充分,我们也可以恢复 大象的整体信息。
在视觉问题中,通常图像全空间的维数 非常高,计算难度较高。因此,我们可以 放弃理论上的最优性,寻找更加简单有效, 同时又和最优传输映射近似的算法。下面 我们就讨论这些更为实用的算法及其背后 的理论。
1. 直方图均衡化
2. 迭代分布传输算法
3. 投影 Wasserstein 距离梯度下降法
4. 逼近算法的局限性和脆弱性
拉东变换将联合概率分布转换成向所有 一维子空间投影所得的边际概率分布,从而 实现了降维,简化了计算。但是,如果有一 些子空间的边际分布缺失,我们无法精确恢 复原来的联合分布。在视觉问题中,每个线 性子空间被视为一个特征,向子空间投影, 等价于特征提取。
深度神经网在解决视觉分类问题中表 现出色,但是也非常容易被愚弄。如图 20 所示,人类可以轻易看出这些是非自然图像,在现实生活中不具有任何意义。但是 深度神经网络非常自信地将它们归结为训 练过的类别。如果以欣赏现代抽象艺术的 心态来研究这些图像,我们能够领会到深度神经网络分类结果的内在合理性:这些 图像的确具有它们所对应类别的内在“神 韵”。从纹理层次而言,它们和对应类别的 纹理非常“神似”;从语义层面而言,这 些图像则是无意义的和荒谬的。
对此我们可以给出一种解释,那就是投 影子空间选得不够,因此即便是在这些子空 间上边际概率分布相似,但是联合概率分布 依然相差很大。深度神经网所得到的训练集 是自然图像,图 21 所示的这些图像都在自然 图像空间之外,但是投影在所选择的子空间 后,自然图像和非自然图像无法进行分别。 由此,引发了深度神经网络脆弱性。
5. 讨论
人类的低级视觉在很大程度上依赖于统 计特性,因此可以归结为对概率分布的处理 和演算。人脑是否真的在计算最优传输映射、 计算 Wasserstein 距离?在历史上人类经常首 先发现某些数学原理,然后又发现这些原理 在生物器官上早已应用。例如,人类首先发 现了傅里叶分解原理,然后发现人类耳蜗神 经结构就是在对声音信号进行傅里叶分解; 又如,人类首先发现了保角变换(共形变换), 后来发现从视网膜到第一级视觉中枢的映射 就是保角变换,如图 21 所示。这项工作曾 经获得过诺贝尔奖。因此,如果若干年后人 们证实大脑的确是在计算概率分布之间的距 离,我们也不会觉得意外。
因此,我们相信在一些视觉应用中,深 度神经网络隐含地构建概率模型,可以直接 用概率的工具,例如最优传输理论及其各种 降维近似,直接取代神经网络,从而使得机 器学习的黑箱变得透明。