用自然语言教育人工智能:百度新算法发展出zero-shot学习能力

机器之心编译

百度最新的研究使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师( virtual teacher)通过将语言与感知和行动连接起来而从头教授虚拟 AI 智能体语言,这一过程就类似于父母教导他们的小孩。读者可点击阅读原文下载此论文。

尽管有了极大的进步,人工智能在许多方面仍旧有限。例如,在计算机游戏中,如果 AI 智能体没用游戏规则预编程,在知道如何做出正确行为之前它需要进行百万次的尝试。人类能在非常短的时间内完成同样的成就,因为我们善于使用语言将过去的知识迁移到新任务中。

在必须杀死龙才能获胜的游戏中,如果需要杀死龙才能获胜,AI 智能体在理解自己必须要屠龙之前需要尝试许多其他的行为(在墙上喷火、发出一片花等)。然而,如果 AI 智能体理解语言,人类就可以简单地使用语言直接指令它「杀死龙赢得游戏。」

以视觉为基础的语言在我们如何归纳技能和将它们应用到新任务上扮演着重要的角色,而这对机器而言仍旧是一个重大挑战。对于让机器变得真正智能并且获得类人的学习能力而言,开发复杂的语言系统是非常重要的。

作为实现这一目标的第一步,我们使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师(virtual teacher)通过将语言与感知和行动连接起来而从头教授虚拟 AI 智能体语言,这一过程就类似于父母教导他们的小孩。

在训练后,我们的模型结果表明 AI 智能体能以自然语言的方式正确地解读教师的指令,并采取相应的行动。更重要的是,这些智能体发展出了我们所说的「zero-shot 学习能力」,这意味着智能体能理解未见过的句子。我们相信该项研究能进一步带领我们朝训练机器像人类一样学习前进。

研究概述

该研究发生在一个 2D 迷宫似的环境 XWORLD 中,在这里,我们的虚拟婴儿智能体需要在自然语言命令的指导下在迷宫里穿行,这个命令是由一个虚拟 teacher 发出的。开始,该智能体对语言一无所知:每个词都对其没有意义。不过,随着该智能体不断研究周围环境,如果执行对了(或者错了)命令,该 teacher 就会给出相应的奖惩。为了帮助智能体更快地学习,该 teacher 也会问些有关智能体所运动的周围环境的简单问题。该智能体需要正确回答问题。通过鼓励对的行动/回答,惩罚错误的行动/回答,该 teacher 能在多次试错时候 让该智能体理解自然语言。

示范命令的一些例子:

  • 请导航至这个苹果(Please navigate to the apple.)
  • 你能移动到苹果和香蕉之间的格子吗?(Can you move to the grid between the apple and the banana?)
  • 你能去那个红苹果那里吗?(Could you please go to the red apple?)

问答对的一些例子:

  • 问:北边的物体是什么?答:香蕉(Q:What is the object in the north? A:Banana.)
  • 问:香蕉在哪里?答:北边(Q:Where is the banana? A:North.)
  •  问:苹果西边的物体是什么颜色的?答:黄色(Q:What is the color of the object in the west of the apple? A:Yellow.

结果

在最后,该智能体可以正确地解读 teacher 的命令,并导航至正确的位置。更加重要的是,该智能体发展出了所谓的「zero-shot 学习能力」。这意味着即使是接受了从未执行过的新任务,如果该指令的句式的相似形式在之前已经见过足够多了,那么它仍然有能力正确地执行任务。换句话说,人工智能有能力理解由已知词和已知语法组成的新句子。

比如说,一个学会用刀切苹果的人通常知道怎样用刀切一个火龙果。应用已有知识实现新的任务对于人类而言是轻而易举的事,但对目前的端到端机器学习来说非常困难。尽管机器可能知道「火龙果」看起来是什么样子,但除非已经经过了相关数据集的训练,它无法执行「用刀切那个火龙果」的任务。相比之下,我们的智能体可以成功地迁移它所知道的火龙果外观与任务「用刀切 X」,而不需要直接去训练「用刀切火龙果」。

在下图中,我们的智能体成功地在导航测试中执行了命令,完成任务。

我们的下一步研究有两个方面:1、在当前 2D 环境中使用自然语言命令来教人工智能获得更多能力;2、把这种能力应用到虚拟 3D 环境中。虚拟的 3D 环境有更多的挑战,同时也与我们所生活的现实环境更加接近。我们的最终目标是用人类的自然语言训练出一个在真实世界中可用的物理机器人。

论文:一个用于虚拟环境中的类人语言习得的深度组合框架

(A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment)

论文链接:https://arxiv.org/pdf/1703.09831.pdf

摘要

我们在一个称作 XWORLD 的迷宫般的 2D 环境之中完成了智能体学习导航的任务。在每一个 session 中,该智能体可感知一个原始像素帧序列、一个 teacher 发出的自然语言指令和一组奖励(reward)。该智能体能以一种基础的组合式的方式从头学习 teacher 的语言,以至于完成训练之后,它可以正确地执行 zero-shot 指令:1) 指令之中词的组合以前从未出现,并且/或者 2) 指令包含从另一个任务而不是从导航学来的新的目标概念。我们端到端地训练了该智能体的深度框架:它能同时学习环境的视觉表征、语言的句法和语义以及输出行动的行动模块(action module)。我们框架的 zero-shot 学习能力来自带有参数约束的组合性(compositionality)和模块性(modularity)。我们视觉化了框架的中间输出,以证明该智能体真正可以理解如何解决问题。我们相信我们的成果能为如何在 3D 环境中训练带有相似能力的智能体提供初步的见解。 

原文链接:http://research.baidu.com/ai-agent-human-like-language-acquisition-virtual-environment/

本文来源于"中国人工智能学会",原文发表时间" 2017-03-31 "

时间: 2024-09-20 06:17:35

用自然语言教育人工智能:百度新算法发展出zero-shot学习能力的相关文章

百度新算法是否有意打击SEO行业

不知道为何在百度新算法的影响下,一批个人SEO博客和SEO论坛惨遭降权和K站,于是很多人猜测:百度是否在有意打击SEO行业,说实话一开始石头也是这个想法.因为笔者自己的个人博客也莫名其妙的被降权了,几个关键词一直以来都是在第一页,几个月以来还算比较稳定.但是这次百度新算法更新后,排名一夜回到了解放前,不仅如此今天刚刚认真看了几个SEO论坛,发现也难逃噩运.首先可以肯定的是新算法中对重点行业站的打击力度是不同的,例如:医疗行业.企业站.个人SEO博客等等.先不要盲目的过于武断,看下数据: 图一:个

百度新算法迷雾:心理战识别作弊网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在网络安全的博弈中,我们除了技术之外,还要培训学员一些反社会工程攻击的能力,也就是说,通常黑客在攻击目标的时候除了技术方面之外,现在用到最多的是心理战术,在安全领域我们将其称之为:社会工程学. 所谓的社会工程学准确的说不是一门科学,而是一门艺术,社会工程学利用人的弱点,以顺从你的意愿.满足你的欲望的方式,让你上当的一些方法.一门艺术与学问.

百度新算法下提升快照更新速度的几个技巧分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 随着百度智能化程度越来越高,想要更好的优化网站,很多传统的技巧比如疯狂发外链都已经被淘汰.而在分析网站优化效果的一个重要参考量就是网站网页快照的更新速度,因为网站快照和网站的权重的关系密切,如果网站权重越高,那么网站被百度蜘蛛爬行.记录之后,就会迅速进行数据库对比分析,从而非常迅速的将网页释放出来,于是快照就能够很快更新出来. 通常来说快照更

百度新算法开始——大力打击超链接作弊网站

现在是百度"大动荡"时期,网站排名极度不稳定,基本上每一个小时的排名都会有差异,每天都会有网站受到百度新算法的冲击,这一次算法的改变没有上次6.28那么厉害了,只是降权,不像上次网站连首页都被直接端掉了,现在还能孤零零地留下一个首页.<关于超链作弊的算法升级>中提到关于超链接作弊的具体细节,这一次百度没有像上次那样大范围地K站了,只是惩罚了这些网站.网站降权的具体体现有哪些? 1.百度快照突然停止更新 有的网站以前都是正常的隔天快照,但是到有几天,突然卡在某一天不动了.虽然

如何运用数据分析论坛签名和外链在百度新算法中的效果

中介交易 SEO诊断 淘宝客 云主机 技术大厅 SEO思维:如何运用数据分析论坛签名和外链在百度新算法中的效果 背景资料 2012年08月22日通过站长平台发布官方公告,为了提高用户体验.清除低质采集的垃圾内容,百度将在6月底反作弊算法的基础上再度升级,对大量低质量.无内容的站点进行清除.并打击胡乱采集.超链接作弊.堆积关键词.冒充官网,等严重影响用户体验及有大量违法或欺诈内容的钓鱼网站. 2012年10月23日10:30百度网页搜索反作弊团队于百度站长平台发布<<关于超链作弊的算法升级>

浅谈:悄然而来的百度新算法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 SEOer正在为网站排名而感慨.奋斗,无所不用其极的时候,百度的新算法已悄然来临.作为网站优化人员,对于百度的任何风吹草动我们都要闻之而应.如果到现在你还没有发现新算法的到来,你就真的OUT了.今天笔者小丹要分享的关于网站优化的经验之谈就是,百度新算法来了,你做好准备了么? 2013年可以称得上是百度"活动"最频繁的一年.

浅谈百度新算法下的网站内容质量如何提升

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 根据有关报道,谷歌搜索的算法每天都在动态更新,这说明了现在搜索引擎算法的更新速度不再是以前的一个月一个更新,而是几乎每天都会在微调.这一点在百度搜索引擎算法的革新上也体现的尤为显著.这些优化的算法能够不断提升用户体验度,从而为广大用户提供更高质量的服务.在这个背景下,如果网站内容的质量不高,在智能化算法的发展下,网站就难以生存和发展,所以提升

网站如何应对百度新算法而被快速收录

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度最近已经更改网页权重算法,主要目的是打压电子商务网站和一些门户网站(阿里巴巴和搜狐网易腾讯等都是被打压的对象),以及彻底删除.cn域名的一些垃圾网站.网站SEO如何应对百度新算法以及新站如何被百度快速收录呢?下面公布一些要点. 1. 一定要等网站建设完成后再向百度提交你的申请.此点非常重要! 2. 网站早期的内容要保证80%原创化,即切记

网站优化如何应对百度新算法而被快速收录

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度最近已经更改网页权重算法,主要目的是打压电子商务网站和一些门户网站(阿里巴巴和搜狐网易腾讯等都是被打压的对象),以及彻底删除.cn域名的一些垃圾网站.网站SEO如何应对百度新算法以及新站如何被百度快速收录呢?下面公布一些要点. 1.一定要等网站建设完成后再向百度提交你的申请.此点非常重要! 2.网站早期的内容要保证80%原创化,即切记不要