标题党太吓人?这篇文章会告诉你DeepMind关系推理网络的真实面貌

每当DeepMind发表一篇新论文时,媒体都会狂热的跟踪报道,而且会使用很多误导人的短语。比如关于该关系推理网络的报道:

DeepMind开发了一种神经网络,能够感知其周围的物体。

实际上这种报导不仅仅是误导性的,而且使得很多不明真相的吃瓜群众感到恐慌:AI真的已经强到如此地步了吗?在这篇文章中,将介绍DeepMind论文:A simple neural network module for relational reasoning,试着通过最简单的方式介绍这个最新的架构。

什么是关系推理(Relational Reasoning)?

从最简单的角度来说,关系推理就是学着去理解不同物体之间的关系(思想)。这种能力被认为是智能的一个基本特征。作者使用了一个图来解释什么是关系推理:

图1,模型需要关注一个不同形状、大小、颜色的物体,并能够回答关于多个物体之间关系的问题

推理网络

作者提出了一种神经网络,其本质是为了捕捉关系(就像卷积神经网络是为了捕捉图像的特征)。他们提出了一个如下定义的架构:

等式1:推理网络的定义

解释:

对O的关系网络是函数fΦ,其中O是想要学习关系的一组物体。

gθ是关于两个物体:oi, oj的方程。输出为我们所关心的“关系”。

Σ表示计算所有可能的物体对,计算他们的关系并加和。

神经网络与函数

在学习神经网络,反向传播等的时候,我们很容易忘记这点,但实际上,神经网络就是一个数学函数!因此,上面等式1描述的就是一个神经网络,更准确的说是两个神经网络:

1.       gθ,计算了一对物体之间的关系

2.       fΦ,计算了所有g的加和,并计算了整个模型的最终输出

gθ和fΦ在最简单的情况下都是多层感知机。

关系神经网络的灵活性

作者提出了关系神经网络作为组件。他们可以接受编码过的物体作为输入,并从中学习关系,更重要的是,他们可以很容易的插入到卷积神经网络,以及长短期记忆网络(LSTM)中。

卷积网络可以通过图像学习到物体。这对于实际应用有很大帮助,因为从图像中推理远比用户手工定义物体数组更实用。

LSTM和单词嵌入何以用来理解问题的含义。这同样更有实际意义,目前模型已经可以接受英文句子作为输入,而不是编码的数组。

作者提出了一种方法将关系网络、卷积网络、LSTM网络结合到一起,构建了一种端到端的神经网络,以学习物体之间的关系。

图2:端到端关系推理神经网络

图2的解释

图像会通过一个标准卷积神经网络(CNN),在这个过程中卷积神经网络会通过k个滤波器提取图像特征。推理网络中的“物体”即是图中网格每点的特征向量。例如,途中黄色的向量就代表一个“物体”。

问题会通过一个LSTM网络,这会产生该问题的特征性向量。可以粗略地表示这个问题的“含义”。

对于等式1,这里有一个轻微的修正,加入了一个额外的项:

额外的一项q,表示LSTM的最终状态。

在这之后,从CNN网络中得到的“物体“以及从LSTM网络中得到的向量被用来训练关系网络。每个物体对,以及从LSTM中得到的问题向量都被用作gθ(一个神经网络)的输入。

将gθ的输出求和,作为fΦ(另一个神经网络)的输入。然后优化fΦ以回答问题。

Benchmarks

作者在几个数据集上展示了该模型的有效性。这里只介绍一个最重要的数据集中的结果—CLEVR数据集。

CLEVR数据集包括不同形状、大小和颜色的物体的图像。模型会被问到如下图的问题:

这个立方体的材质与这个圆柱体的材质一样吗?

图3:物体的类型(上),位置组合(中&下)

作者表示,在准确度方面,其他系统都远远落后于他们的模型。这是由于关系网络就是为捕捉关系而设计的。他们的模型达到了前所未有的96%+的准确度,相比之下,使用stacked attention模型的准确度只有75%。

图3.1 CLEVR数据集上不同方法的比较

结论

关系网络机器适合于学习关系。该方法可以高效地使用数据。同时该方法也足够灵活,可以与CNN,LSTM一起作为一个混合解决方案。

本文也想通过正确的解读,来打破许多大型媒体关于“AI将会接管一切”的宣传,让大家正确的了解目前最好的方法能够做到什么程度。

本文作者:高云河

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-12-10 03:36:56

标题党太吓人?这篇文章会告诉你DeepMind关系推理网络的真实面貌的相关文章

如何用 Caffe 生成对抗样本?这篇文章告诉你一个更高效的算法

Fast Gradient Sign方法 先回顾一下<杂谈CNN:如何通过优化求解输入图像>中通过加噪音生成对抗样本的方法,出自Christian Szegedy的论文<Intriguing properties of neural networks>: 其中n是要求的噪音,是相应的系数,L是x+n属于某个类别的loss,c是某个错误类别的标签.论文中用来得到图像噪声的办法是L-BFGS,这个方法虽然稳定有效,但是很考验算力的,Christian在Google反正机器多又强,用这个

【区块链之菜鸟入门】来来来,这篇科普告诉你“区块链”到底是个啥?

通过前面的两篇文章相信大家已经对区块链技术有了一个大致的了解,对于区块链的技术发展史也有所涉猎.但是貌似还不是很明白,毕竟貌似区块链技术里还有很多的术语,对于这些术语,宝宝心里苦,但宝宝还要继续学习呀(哭笑脸).不过呢,今天为大家分享的这篇文章偏科普性质,不需要大家对技术和金融有任何背景,会尽量回避一切技术术语,希望这篇文章能解决大家心里的一些疑惑所帮助.就算是小白的我也能读懂这篇关于区块链的文章呢,那你还在等什么?有了这篇文章,再约妹子吃饭,聊一聊区块链,瞬间逼格提升好几倍有木有?你还在等什么

一篇短文告诉你阿里云用户如何通过等保测评

本文讲的是一篇短文告诉你阿里云用户如何通过等保测评,随着等保2.0的脚步越来越近,云上等保受到越来越多人的关注.近日在成都举行的云栖大会安全论坛上,牛君特意关注了阿里云云上系统的等保合规方案. 阿里云最早于2012年通过 ISO 27001 认证,并于2016年9月通过新的云计算安全等级保护三级测评.据阿里云安全专家行逸(易鑫)介绍,这是目前国内首批.也是唯一一家通过国家权威机构依据云等保要求联合测评的公共云服务平台. 阿里云安全资质历程: 2012 – ISO 27001 2012 – 等保三

深度学习自动编码器还能用于数据生成?这篇文章告诉你答案

  什么是自动编码器 自动编码器(AutoEncoder)最开始作为一种数据的压缩方法,其特点有: 跟数据相关程度很高,这意味着自动编码器只能压缩与训练数据相似的数据,这个其实比较显然,因为使用神经网络提取的特征一般是高度相关于原始的训练集,使用人脸训练出来的自动编码器在压缩自然界动物的图片是表现就会比较差,因为它只学习到了人脸的特征,而没有能够学习到自然界图片的特征: 压缩后数据是有损的,这是因为在降维的过程中不可避免的要丢失掉信息: 到了2012年,人们发现在卷积网络中使用自动编码器做逐层预

卷积神经网络不能处理“图”结构数据?这篇文章告诉你答案

本文要介绍的这一篇paper是ICML2016上一篇关于 CNN 在图(graph)上的应用.ICML 是机器学习方面的顶级会议,这篇文章--<< Learning CNNs for Graphs>>--所研究的内容也具有非常好的理论和实用的价值.如果您对于图的数据结构并不是很熟悉建议您先参考本文末的相关基础知识的介绍. CNN已经在计算机视觉(CV)以及自然语言处理等领域取得了state-of-art 的水平,其中的数据可以被称作是一种Euclidean Data,CNN正好能够

在外面吃饭,你会用开水烫餐具吗?事实太吓人了!

在外吃饭时,餐厅都会提供包装好的已消毒餐具.虽然这些餐具都是消毒过的了,但是仍然会有很多人用开水烫一遍. 不瞒你说,小编也有这样的习惯,即使是到了星级饭店,但还是像患了强迫症一样,只有用热水烫了碗碟才安心.但是,你能确定这么做就可以烫干净了吗? 答案是不一定哦!高温的确能够杀死部分细菌,但是对于顽固细菌,那可是要满足一定条件才可以.有的病毒,至少要在100摄氏度的开水中煮上10分钟,才能完全将病菌杀死! 而如果你用的是餐厅免费提供的茶水,那么,可以告诉你的是,这些茶水通常都是温水,就算是热水也达

高端、智能、互联——一篇报告告诉你,中国消费者到底想要什么样的车

为了更好地理解中国汽车买家,以及消费者行为的演变将如何影响中国未来车市,2017年7月,麦肯锡对5800多名去年购车的中国消费者展开了广泛调查,形成并发布了<2017中国汽车消费者调查报告>.这些汽车消费者来自44个城市(从一线到四线)和7个县,覆盖中国19个关键城市群(占全国90%的城市GDP,以及总人口的一半): 同年8月,腾讯汽车联合罗兰博格发布了<中国汽车行业人工智能应用报告>,以期对于中国汽车行业当前对于人工智能的应用情况有一个整体性的展现(样本量1667),其中对于中国

行业对“区块链+金融”的一些误解,这篇文章会讲清楚

区块链技术近年来是金融科技领域里面一颗耀眼的明星,它以密码学.全网共享帐本和分布式共识机制等技术为核心,构建起一套不依赖于任何特定第三方中心机构运作的分布式帐本系统.国内第一家区块链研究生万向区块链研究室首席研究员余文波表示,它有潜力改变整个金融业的基础架构,进而对整个行业产生深远的影响. 钛媒体的分享活动上,余文波就区块链技术对证券行业的一些影响作了相关分享: 区块链技术在证券行业应用的共识 区块链技术在证券行业的应用,应该说主要集中在交易后的流程里的各个环节,这个技术能够减少交易后环节的成本

ASP.NET 太吓人了

问题描述 我刚刚打开一个注册页面:大家看看viewstate里面的内容,注意,仅仅是注册页面,用HTML就可以完成的!value="/wEPDwUKMTI5MjA2Nzc1NA9kFgQCAQ9kFgQCAQ8PFgIeBFRleHQFbzxhIGhyZWY9Ii4uL21lbWJlci9NZW1iZXJfUmVnaXN0ZXIuYXNweCI+5Yqg5YWl5pyD5ZOhIDwvYT4tPGEgaHJlZj0iLi4vbWVtYmVyL01lbWJlcl9Mb2dpbi5hc3B4Ij4g