随着越来越多的东西依赖于越来越难以捉摸的人工智能(AI),发现后者的缺陷就显得越来越重要,此文中的黑箱研究就越来越必不可少。
上面的图案是什么?很简单的黄黑间条嘛。不过如果你问问最先进的人工智能,它给出的答案会是校车,而且 99% 地肯定。但 AI 错了。
诚然,现在的计算机图像识别技术已经非常先进。比方说,下面这幅图 AI 虽不能识别出这是一条戴着墨西哥帽的吉娃娃狗(说实话有的人也未必能认出),但是起码能识别出这是一条戴着宽边帽的狗。但是怀俄明大学进化人工智能实验室最近的一项研究却表明,这些 AI 未必总是那么灵光,就像开篇的例子那样,最先进的 AI 把这些随机生成的简单图像当成了鹦鹉、乒乓球拍、百吉饼或者蝴蝶。
这一发现迫使我们承认一个明显但重要的事实:即计算机视觉和人类视觉并不一样。而且鉴于我们日益依赖神经网络去训练计算机识别图像的,究竟计算机是怎么想的连我们人类都不知道了。
用进化算法欺骗AI
进化算法生成的随机图像,图像下方的文字是AI识别出来的对象。
要想弄清楚这些自我训练的算法的聪明之处,方法之一正是看看它们的愚蠢之处。研究人员决定看看最先进的图像识别神经网络是不是容易受到主动错误信息的影响。比方说这些神经网络能认出猫来,那是不是也会把别的东西认成猫呢?
为此,研究人员利用进化算法生成随机图像作为视觉诱饵。他们首先利用程序生成一幅图像,然后对图像进行略微的改变。接着把原图和略微修改后的图一并提交给基于 ImageNet 训练的神经网络。如果修改过的图被 AI 认为比原图更接近某个对象,研究人员就保留修改过的图,然后重复此过程。否则的话就回退重试。这样下来的结果就是最好看者生存—或者说,是计算机最能识别的的图像存活了下来(而非最合适者—原图)。
最后该技术生成了数十幅神经网络的确信度超过 99% 的图像。它们有的是蓝橙相间的波浪线,有的是黄黑间条纹等等,可在 AI 眼里,它们却是海星(star fish)和校车(school bus)。
黑箱配对
AI 为什么会上当呢?有些情况是可以理解的。比方说,眯着眼睛看的话,校车(school bus)的确看起来像是黄黑间条纹。类似地,随机生成的“君王蝴蝶”的确看起来像是蝴蝶翅膀,而被认作“滑雪面罩(ski mask)”的图像的确看起来像一幅夸张的人脸。
但是,研究人员还发现 AI 通常还会被纯静态的图像愚弄。采用一种略微不同的进化技术之后,研究人员生成了另一组图像(下图)。这些图像在人眼看来几乎都是一样的,就像是一台坏掉的电视上的图像。但是在最先进的神经网络眼里,这些却是蜈蚣(centipede)、猎豹(cheetah)、孔雀(peacock)等等。
在研究人员看来,神经网络似乎形成了各种有助于识别对象的视觉线索。这些线索有些是人类熟悉的(如校车的例子),有些则不然。上图中例子说明至少在某些时候这些线索是颗粒度很细的。也许经过训练后,神经网络把一连串的“绿色绿色、紫色、绿色”像素视为孔雀看见的模式了。所以当随机生成的图像正好也产生了同样的像素系列后,AI 就把它当作是孔雀了。这说明 AI 也许针对每一种对象都推理出了若干的线索,并认为通过这些线索足以识别出某一对象。
当然,人类精心制作这些图像来愚弄 AI 也说明了一个问题,即神经网络的规模和复杂性已经超出人类的理解范畴—哪怕我们知道 AI 能识别图像,但对它们如何识别图像却并不知晓。类似的研究其目的正是想通过逆向工程的方法推导出 AI 的模型,找出人工智能的学习思路。虽然仍不甚了了,但最近两年的黑箱研究已能管中窥豹。
AI的眼光有问题有问题吗?
当研究人员把研究结果提交给神经信息处理系统大会进行讨论时,专家形成了泾渭分明的两派意见。一组人年纪略大,领域经验更丰富,他们认为这个结果是完全可以理解的。另一派人则相对年轻,他们对研究结果的态度是困惑。至少在一开始对强大的算法却把结果完全弄错感到惊讶。请记住,尽管这些人稍微年轻一点,但个个都是在顶级 AI 大会上发表过文章的人了。
而在研究团队负责人 Clune 看来,这反映了该领域的世代转移。若干年以前,做 AI 的那帮人还是开发 AI 的。而现在,神经网络已经足够先进,以至于研究人员拿来用就行了。
拿来就能用未必是坏事。但是随着越来越多的东西是基于 AI 来搭建的,那么发现 AI 的缺陷就显得愈发的至关重要。把一些随机像素误认为是某种动物当然无伤大雅,但是如果 AI 让某些色情图片在安全搜索过滤中漏网性质就很严重了。Clune 希望这项研究可以激发其他研究人员跟进,在算法中考虑到图像的整体结构。换句话说,让计算机视觉更像人类视觉。
同时,这项研究也促使我们考虑 AI 其他形式的漏洞。比方说脸部识别也依赖于同类的技术,因此也会有类似缺陷。如果计算机视觉只是关注于局部特征的话,也许安上一个 3D 打印的鼻子就能让计算机认为你是别人。戴上一个面具就能让你从监视系统中消失。计算机视觉的应用越广泛,此类隐患就会越大。
不过从更宽泛的意义来说,这项研究带给我们的警示是我们正进入自我学习系统的时代。现在,我们仍然控制着自己开发出来的东西。但随着 AI 不断自我开发自己,有一天我们发现自己搞不懂 AI 也不奇怪。“计算机做什么不再是人写代码写出来的了,”Clune 说:“这几乎是相互作用的组件间的规模效益导致的智能出现。”在这一智能的利用上我们无疑没有浪费时间。但是在我们这么做的时候是否完全理解了它就不太清楚了。
原文发布时间为:2015-01-12