论文导读:深度神经网络中的对抗样本与学习(附原文)

更多深度文章,请关注:https://yq.aliyun.com/cloud

作者介绍:

Adrian Colyer:morning paper编辑、Accel Partners投资合伙人、SpringSource首席技术官、VMware技术总监。

领英:http://www.linkedin.com/in/adriancolyer/

Twitter:https://twitter.com/adriancolyer

对抗样本是故意构造的输入,能够导致网络产生错误输出。本文介绍的论文主要有以下几篇:

Deep neural networks are easily fooled, Nguyen et al, 2015

Practical black-box attacks against deep learning systems using adversarial examples, Papernot et al, 2016

Adversarial examples in the physical world, Goodfellow et al, 2017

Explaining and harnessing adversarial examples, Goodfellow et al, 2015

Distillation as a defense to adversarial perturbations against deep neural networks, Papernot et al., 2016

Vulnerability of deep reinforcement learning to policy induction attacks, Behzadan & Munir, 2017

Adversarial attacks on neural network policies, Huang et al. 2017

首先从“前100名深度学习论文列表” 中的“深层神经网络容易被愚弄”开始,

深层神经网络容易被愚弄

上图是一个犰狳!下面图像更容易看清,是0到9之间某个数字的五幅不同图像,

(明显是数字4)

你所看到的是对抗图像,而不再像从人的角度来看到的目标类别。显然,DNN并没有与我们以相同的方式学习解释图像。

对抗图像是使用进化算法(EA)创建的,标准EA使用单一的适应度函数,但是作者使用MAP-Elites的新算法,并测试了两种不同的突变策略。

以MNIST为例(数字0-9),使用直接编码突变创建这些图像:

下面使用间接编码突变创建的:

使用CPNN编码和故意进化的图像来匹配目标DNN类别可以产生各种各样的图像:

通过从生成的图像中移除一些重复的元素,DNN的置信度得分下降。“这些结果表明,DNN倾向于学习低级和中级特征,而不是物体的全局结构”。

作者尝试通过将培训机制扩展到包含这些负面例子,使DNN对这些对抗图像更加强大,但总是可能产生新的对抗样本,仍会愚弄所产生的网络。

使用对抗样本对深度学习系统实施黑盒攻击

这是熊猫(59.7%的置信度):

但是,这显然是一种长臂猿(99.3%置信度):

攻击者的目标是找到一个小的、不可察觉扰动的现有图像,以强制分类器去错误分类,而同个图像仍能被人类正确分类。用于产生对抗图像的先前技术依赖于对完整训练集的访问和网络中的隐藏权重。这篇文章表明, 所有你需要的就是将输入传递给分类器,学习后预测类别。攻击通过使用目标DNN作为oracle来训练替代模型。目标输入是合成生成,传递给oracle(受攻击的系统),输出标签成为替代模型的训练标签。可以使用一般的白盒技术创建成功的对抗图像。

事实上,攻击不仅适用于DNN目标,而且还涉及到附加的机器学习模型(线性回归、SVM、决策树和最近邻域)。

作者通过使用MetaMind,Google和Amazon分别提供的三种云ML服务,显示了攻击网络盲人的能力。在每种情况下,训练数据被上传到服务,该服务学习分类器。然后使用替代网络技术来找到愚弄分类器的样本。对MNIST的测试精度达到92.17%的亚马逊分类器可能被96.19%的对抗样本所欺骗;在MNIST上获得了92%的测试准确性的Google分类器,可能被88.94%的对抗样本所欺骗。基于梯度掩蔽的防御对抗替换攻击而言不是有效。

物理世界中的对抗样本

到目前为止,所有以前的工作中对手可以将数据直接提供给机器学习的分类器。对于在物理世界中运行的系统来说,并不总是这样。本文表明,即使在物理世界场景中,机器学习系统也容易受到对抗样本的影响。

作者打印清晰图片和对抗图像,并拍摄打印的图像,将这些照片裁剪后送入分类器。该过程通过手动摄影进行,并且不需要仔细控制照明等引入多余变量,具有根据微妙变化破坏对抗扰动的潜力。

总体来说,结果表明对抗样本的一小部分仍然被错误分类:照相变换证明了物理对抗的可能性。因此,通过产生足够的对抗图像,对手可能会产生比自然输入更多的错误分类。

解释和利用对抗样本

为什么这些对抗样本有效?Goodfellow等人解释,这是为了在高维空间中攻击是线性行为。文章结果表明基于现代机器学习技术的分类器,即使在测试集上获得出色性能的分类器也没有真正学习确定正确输出标签的特征。考虑在高维线性分类器中,每个单独的输入特征被归一化。对于任何一个输入,小的改变将不会改变分类器的总体预测。但对输入进行许多次无穷小的改变,会导致输出有大的变化。

可以通过调整相应权重的符号变化来最大限度地发挥许多小变化对其的影响。这也是一种产生对抗图像的快速方式。

对抗样本一个有趣的方面是一个模型生成的示例通常会被其他模型错误分类。

解释表明,由于其线性设计出易于训练的模型和使用非线性效应来抵抗对抗扰动的模型之间造成了根本的紧张。从长远来看,可以通过设计更强大的优化方法来成功地训练更多的非线性模型以逃避这种折中。

蒸馏作为深层神经网络抵御对抗扰动的防御

Papernot等人表明蒸馏技术(使用概率分布作为目标训练)也可以用于大大降低网络对抗扰动的脆弱性。对于MNIST数据集训练的DNN,防御性蒸馏将对抗样本的成功率从95.89%降低到0.45%!针对CIFAR数据集而言,成功率由87.89%降至5.11%。事实上,防御性蒸馏可以降低DNN对输入扰动的灵敏度。

以下是MNIST和CIFAR的一些示例,显示正当样本和对抗样本:

下面介绍防御性蒸馏如何工作以及其原理。考虑一般的对抗框架,首先搞清楚工作方向是围绕给定的输入样本,然后使用这些信息选择输入维度之间的扰动。

如果梯度方向陡峭,就会对小扰动产生很大的影响。为了防止这种扰动,必须通过网络更好地泛化训练数据集以外的样本来平滑训练过程中学到的模型。DNN对对抗样本的“鲁棒性”与给定样本邻域相一致地分类输入相关。

为了实现这种平滑,蒸馏防御首先按照正常的方式训练分类网络,然后用从第一个模型学到的概率向量训练另外一个完全相同架构的新模型。

以这种方式训练网络,有助于更好的泛化。

下图展示蒸馏温度如何影响模型对抗样本的防御能力。直观上,温度越高防御越好。

蒸馏对分级精度影响不大,甚至有可能会提升。

防御性蒸馏仅适用于基于能量概率分布的DNN模型,因此建立通用对抗样本强大的机器学习模型的重要一步。不幸的是,文章表明,甚至连防御性蒸馏也不足以减轻对抗,并证明了防御性蒸馏是无效的。

深层强化学习对政策诱导攻击的脆弱性

这篇文章和下一篇文章告诉我们,深度强化学习网络(比如DQNs)也容易受到对抗攻击。

强化学习与环境相互作用的依赖性导致固有的脆弱性,这使得学习过程易受环境扰动影响,利用此漏洞可以让对手想到干扰或改变控制策略的方法。

幸运的是,攻击者的目标是欺骗一个DQN使其采取攻击者选择的动作,但我们已经知道许多制作攻击所需的构建块。假设威胁模型类似于“黑盒”模型,攻击者可以根据DQN的输入以及观察到DQN采取的行动估计出报酬函数。

第一步是“黑盒攻击”技术来训练与目标选择的策略相匹配的替代DQN。

下一步是找到一种将这种学习对抗政策转移到目标网络的方法。这是在开发周期中完成的:

需要回答的第一个问题是“是否可能产生DQN的对抗样本?” 从下可知答案是肯定的:

必须回答的第二个问题是,这些对抗样本是否可以转移。答案是肯定的:

由于所有已知的对策表明是不充分的,因此目前抵抗对抗样本的最新水平不能提供具体的防范来防备这样的开发。

神经网络策略上的对抗攻击

Huang等人发表的这项工作也表明强化学习网络容易受到对抗性攻击。

首先通过使用白盒攻击展示了这点,还表明在一系列深度强化学习算法(DQN、TRPO和A3C)中对抗也会成功。然后作者使用黑盒攻击演示了转移能力,结合在之前“物理世界中的对抗样本”中学到的经验。作者指出,即使在黑盒子情况下,计算效率高的对抗样本很容易迷惑这样的政策,可以将这些对抗扰动应用于现实世界中的对象,例如在道路表面的增加特制漆以迷惑自动驾驶汽车的车道追踪策略。

文章原标题《When DNNs go wrong – adversarial examples and what we can learn from them》,作者:Adrian Colyer,译者:海棠,审阅:tiamo_zn

附件为原文的pdf

文章为简译,更为详细的内容,请查看原文

 

时间: 2024-10-29 14:17:49

论文导读:深度神经网络中的对抗样本与学习(附原文)的相关文章

Top 100论文导读(一):纯干货!深度神经网络中的理解,泛化以及迁移学习

更多深度文章,请关注:https://yq.aliyun.com/cloud 作者:Adrian Colyer, 著名阿克赛尔合伙公司(Accel Partners)的投资合伙人,该公司致力于帮助杰出的企业家创建世界级的高科技企业,在加入Accel之前,Adrian拥有20年技术人员工作经验,如担任Pivota , VMware, SpringSource的CTO.如果你对科技企业感兴趣,可以和他联系.邮箱:acolyer@accel.com. 他的领英主页. 前言:作者从top 100 优秀深

如何用 Caffe 生成对抗样本?这篇文章告诉你一个更高效的算法

Fast Gradient Sign方法 先回顾一下<杂谈CNN:如何通过优化求解输入图像>中通过加噪音生成对抗样本的方法,出自Christian Szegedy的论文<Intriguing properties of neural networks>: 其中n是要求的噪音,是相应的系数,L是x+n属于某个类别的loss,c是某个错误类别的标签.论文中用来得到图像噪声的办法是L-BFGS,这个方法虽然稳定有效,但是很考验算力的,Christian在Google反正机器多又强,用这个

手把手教你使用TensorFlow生成对抗样本 | 附源码

更多深度文章,请关注:https://yq.aliyun.com/cloud 如果说卷积神经网络是昔日影帝的话,那么生成对抗已然成为深度学习研究领域中一颗新晋的耀眼新星,它将彻底地改变我们认知世界的方式.对抗学习训练为指导人工智能完成复杂任务提供了一个全新的思路,生成对抗图片能够非常轻松的愚弄之前训练好的分类器,因此如何利用生成对抗图片提高系统的鲁棒性是一个很有研究的热点问题. 神经网络合成的对抗样本很容易让人大吃一惊,这是因为对输入进行小巧精心制作的扰动就可能导致神经网络以任意选择的方式对输入

深度神经网络可视化工具集锦

  TensorBoard:TensorFlow集成可视化工具 GitHub官方项目:https://github.com/tensorflow/tensorflow/tree/master/tensorflow/tensorboard TensorBoard 涉及到的运算,通常是在训练庞大的深度神经网络中出现的复杂而又难以理解的运算. 为了更方便 TensorFlow 程序的理解.调试与优化,Google发布了一套叫做 TensorBoard 的可视化工具.你可以用 TensorBoard 来

【深度神经网络 One-shot Learning】孪生网络少样本精准分类

传统观点一般认为,深度神经网络通常比较擅长从高维数据中学习,例如图像或者语言,但这是建立在它们有大量标记的样本来训练的情况下.然而,人类却拥有单样本学习的能力--如果你找一个从来没有见过小铲刀的人,给他一张小铲刀的图片,他应该就能很高效的将它从其他厨房用具里面鉴别出来. 这是一种对人类来说很容易的任务,但是直到我们想写一个算法让它去做这件事--那就GG了 .很明显,机器学习系统很希望拥有这种快速从少量样本中去学习的能力,因为收集和标记数据是一个耗时费力的工作.而且,我认为这是通往通用人工智能的漫

终于盼来了Hinton的Capsule新论文,它能开启深度神经网络的新时代吗?

本文讲的是终于盼来了Hinton的Capsule新论文,它能开启深度神经网络的新时代吗?, 眼见"深度学习教父"Geoffery Hinton在许多场合谈到过自己正在攻关的"Capsule"之后,现在我们终于等到了这篇论文,得以具体感受Capsule的特性.雷锋网 AI 科技评论把这篇论文主要成果介绍如下. 背景 目前的神经网络中,每一层的神经元都做的是类似的事情,比如一个卷积层内的每个神经元都做的是一样的卷积操作.而Hinton坚信,不同的神经元完全可以关注不同的

UIUC说对抗样本出门会失效,被OpenAI怼回来了!

雷锋网 AI科技评论按:看来,我们还是不能对对抗样本问题掉以轻心. 上周,来自UIUC的一篇论文表示,当图像识别算法应用于实际生活场景下(比如自动驾驶)时,可能不需要那么担心对抗样本问题.他们做了一系列实验,从不同角度和方向拍下受到干扰的停车标志的图片,将图像进行识别,结果表明,现有的对抗性干扰只在特定场景下适用. 关于那篇论文,雷锋网之前有相关发文:UIUC最新研究:对抗性样本是纸老虎,一出门就不好使! 而近日,针对UIUC的论文,OpenAI表示,他们已经生成了一些图像,当从不同大小和视角来

理清神经网络中的数学知识

导读:首先我想在这里声明的是,本篇文章针对的是一些已经具备一定神经网络知识的人.意在帮助大家梳理神经网络中涉及的数学知识,以及理解其物理含义.希望大家读过之后,可以使大家对于神经网络有更多角度的理解,帮助大家推导以及理解其中的数学公式.(本篇文章在叙述方式上多以白话为主,意在让大多数人有形象的概念,所以在严谨性与通俗性上难免会出现失衡问题,希望大家理解.分享的目的即分享,非教授!) 1. 线性代数 矩阵乘以向量的物理含义 矩阵乘法我更喜欢称作线性转换.一个矩阵乘以向量中,矩阵相当于一个转换函数,

OpenAI最新研究:“对抗样本”能轻易黑掉AI系统,如何抵御?

雷锋网(公众号:雷锋网)按:近日,OpenAI发表最新研究,论述了AI安全领域的一大隐忧:"对抗样本",它可以轻易地让机器学习系统产生误判,这会对AI的应用实践产生影响.在这篇由"GANs"之父Ian Goodfellow领衔撰写的文章里,OpenAI针对"对抗样本"进行了防御策略的实验,其中有两种方法效果显著,但也并不能解决根本问题.OpenAI表示设计出抵抗强大.具有适应性攻击者的防御策略,是非常重要的研究领域.本文原载于OpenAI Blo