从超级玛丽说起,谈谈如何为机器赋予好奇心

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud

请试着回忆一下第一次玩超级玛丽游戏的体验。蓝天、白云、砖头砌成的道路,萌萌的马里奥小人穿着蓝色衣服,戴着红色帽子,一路向前。你控制着马里奥的前进方向,左、右、蹲、跳。

这个场景对于80后来说应该都不陌生,但是超级玛丽的粉丝可不止80后。加州大学伯克利分校的计算机科学研究员Agrawal现在正在研究好奇心如何让学习陌生的任务(例如打超级玛丽)变得更有效。Agrawal将他的游戏视频发布到了YouTube上,有趣的是,视频玩家不是人类,而是计算机软件。此款软件搭载着成熟的机器学习算法,该算法由Agrawal和他在伯克利人工智能研究实验室的伙伴一起开发。其目的听起来很特别:为机器学习赋予好奇心。

Agrawal说道:“你可以把好奇心理解成一种内在驱动力。”这种驱动力又叫做“内在动机”,即做一件事出于好奇或者兴趣的目的。例如,你打超级玛丽是因为好奇马里奥下一步会去哪儿;你学习计算机是因为感兴趣。

同时,人类行为也被“外在动机”驱动着,这种动机来源于环境。例如,你努力工作的外在动机是为了升职加薪;你学习英语的外在动机是为了找到好工作。计算机科学家利用一种类似的方法来训练算法,此方法叫做增强学习:当软件做对了任务,便会“得分”;做错,则会得到惩罚。

但是这种恩威并施的方法有一定的局限性,人工智能研究者开始发现内在动机对于机器学习来说非常重要,它能让机器更有效灵活地学习,让计算机更像人类和动物,而不是机器。这种方法的灵感来源于心理学和神经生物学。

现在,这种机制已经在电子游戏中得到了训练,但是要让AI变得有好奇心仍然面临很多困难。我们总想着让智能机器服务于自己,让扫地机器人整理物品做清洁,让汽车自动导航识别路况,让救援机器人迅速识别伤者并救出。在所有这些案例中,我们一直在尝试解决一个很难的问题:如何制造出一台能够自己发现任务的机器?

得分”机制的问题

AlphaGo能击败李世石,很重要的一个原因是增强学习。要解释清楚增强学习的细节比较困难,但是其道理很简单:给予一种学习算法、机制(agent)、能用数学来定义的信号或者奖励功能。把它放到环境中,当agent在环境中运行,增加回报价值的动作便得到加强。随着这种动作不断重复,agent便慢慢学会了如何获得最大回报。理想地说,这种机制将会让agent在无需程序员或者工程师手动编程的前提下,达到某种理想的状态,比如在围棋比赛中击败李世石。

换句话说,这种回报机制能指导agent锁定目标。目标描述得越清楚,agent运作得越良好。这就是为什么它们通常都用旧视频游戏来测试,因为视频游戏基本都是基于这种可以得分的简单外部奖励机制。

但是,Agrawal表示:“在真实的世界中,得分并不存在。”现在,计算机科学家们想让它们探索一种没有可量化目标的环境。

另外,如果环境没有及时给出外部回报,agent便不清楚自己的行为是对是错。这样,agent会感到迷茫。

除此之外,及时这种外部奖励功能能让agent展现出惊人的能力(比如击败李世石),它并不能在没有外部转换的情况下轻易转换成任何一种context。即使可以转换,也需要人工操作。

相比用外部回报来推动agent,我们更想让AI具备自我驱动的能力。Agrawal说:“没有谁能不断告诉你做什么能加分,做什么会减分。”

让好奇心来帮忙

加州大学伯克利分校Darrell实验室的Deepak Pathak从未将“好奇”这种心理学上的词写进代码里,他表示:“所谓‘好奇’,无非就是一种能让agent有效探索环境的模型。”

但在2016年,Pathak开始对增强学习的回报机制感兴趣。虽然以增强学习技术驱动的深度学习软件,最近在以简单得分机制驱动的游戏(比如Space Invaders和Breakout)中收获了重大成果。但碰到稍微复杂一点的游戏(比如超级玛丽)中,AI就有点难以控制。

因此,Pathak and Agrawal开始为agent赋予 intrinsic curiosity module(ICM,内在好奇模式),这样agent在没得到及时回报的情况下,不至于“茫然失措”。不过,agent并没有对超级玛丽理解更深。事实上,它更像一个新生婴儿,而不是一个新手玩家。

Agrawal和Pathak的灵感来源于两位发展心理学家的Alison Gopnik和Laura Schulz的研究成果,他们分别在麻省理工大学和加州大学伯克利分校就职,研究显示:婴儿天生喜欢能让他们感到惊讶的东西,而不是能带来外部回报的东西。这种现象可以这样解释:婴儿建立了一种理解世界的模型,然后进行“实验”去了解更多不知道的东西。这种“试验”可以是任何能够产生让他们感到不寻常或者无法预料的东西。

在Pathak和Agrawal的机器学习版本中,AI首先是超级玛丽的样子,然后预测游戏的进展,这种机制便是现在的深度学习的机制。但是Pathak 和Agrawal的ICM在此基础上做出了改变:给予一种内部回报信号,这种信号代表着这种预测模型的错误程度。错误率越高,agent越惊讶,内部回报功能价值便越高。

这种信号让agent对自己尚未了解的东西非常好奇,因此驱动着agent去探索游戏中无法预测的领域。随着agent学习得越来越深入,预测模型的错误率会越来越低,ICM带来的回报就越来越低,那么agent就会探索更新、更让其惊讶的领域,来获得更大回报。“这样一来,机器的探索速度会越来越快。”Pathak如是说。

这种回报模式可以让AI迅速从“无知”模式中走出来。刚开始时,agent对基本动作非常好奇:右键让马里奥往右边走,然后停下来;击右键多次,马里奥持续走;上键让它跳起来又落下去;下键没有任何作用。这样一来,agent便会学会有用的动作,迅速掌握游戏的方法。

比如,点击下键没有任何作用,那么agent便会迅速预测出“点击下键”这个动作的效果,这样它便会消除对此的好奇。但是,点击上键能产生各种预测不到的效果:有时直走,有时短跳,有时长跳,如果跳到障碍物上,它还下不来。agent的预测模式不断尝试,不断试错,并把结果一一记住,得到ICM的回报信号,这样一来,agent便会不断尝试这个动作的试验。

Agrawal解释道:“agent学习如何探索世界(比如跳跃或杀敌),如果不小心死了也不会得到惩罚。但是它一直在避免死亡,因为不死就会让它更有探索世界的兴趣。所以这个过程中,它是自我强化,而不是从外界中得到强化。”

避免“好奇陷阱
从上世纪九十年代初开始,人工好奇(Artificial curiosity)就是AI的分支之一。为机器赋予好奇心的方法之一就是:让机器探索环境中的未知领域。乍一看,这种方法似乎在捕捉好奇心体验,实际上,它会让agent困在一种状态中,这种状态能满足机器与生俱来的动机,但会阻止机器去探索未知的东西。

比如,如果电视突然白屏,agent便会迅速进入“探索新奇”模式,因为白屏是它无法预料的,这样agent的内在回报功能便会让它开始不断关注这种状况。然后,它便被困住了。就像我们难以预测落叶会飞往哪一个方向,agent也很难电视预测何时才会白屏,因此,预测时将会产生很高的错误率,让agent变得非常好奇。

Agrawal和Pathak必须提出一种方法,让agent变得好奇,但不至于太过好奇。预测像素——也即使用深度学习和计算机视觉来建立智能体在同一时间与完整空间内的视野——使得潜在干扰的过滤过程变得困难。计算方面的花费也很贵。

因此,伯克利的研究人员对其马里奥玩家智能体进行了设计,将其视觉输入从原始像素转换成一种经过抽象的现实。这种抽象只包含有可能影响智能体(或受智能体影响)的环境特性。从本质上说,如果该智能体不能与某物进行交互,那么它一开始就不会被感知到。

伯克利研究人员让马里奥agent的视觉输入中添加了一些干扰,这些干扰与现实环境息息相关,能够影响agent的判断能力。如果环境中存在很多噪音或干扰,这类驱动方法往往会导致 agent被无关干扰物吸引。

Agrawal 和 Pathak 不得不想出一个办法来让智能体的好奇心保持在一个合适的程度。预测像素,也就是使用深度学习和计算机视觉来建立智能体在同一时间与完整空间内的视野,这样潜在干扰的过滤过程将会变得困难,计算方面的花费也很贵。因此,伯克利的研究人员对其马里奥玩家智能体进行了设计,将其视觉输入从原始像素转换成一种经过抽象的现实。这种抽象只包含有可能影响智能体(或受智能体影响)的环境特性。从本质上说,如果该智能体不能与某物进行交互,那么它一开始就不会被感知到。这种方法不仅简化了智能体的学习过程,也巧妙地避开了猎奇陷阱。

现在,如果内在激励和人工好奇心能让智能体找出人类所未知的能够实现自动化的任务,那么它将成为任何人工智能都想具备的能力。目前的问题是,如何控制好好奇心的程度?现在,Agrawal和Pathak给出的答案就能当作参考。但长路漫漫,最后发展如何,我们还将拭目以待。

以上为译文

文章原标题《Clever Machines Learn How to Be Curious》,作者:John Pavlus,译者:Misty。

文章为简译,更为详细的内容,请查看原文。

本文由用户为个人学习及研究之目的自行翻译发表,如发现侵犯原作者的版权,请与社区联系处理yqgroup@service.aliyun.com

时间: 2024-11-17 15:15:56

从超级玛丽说起,谈谈如何为机器赋予好奇心的相关文章

我们来谈谈面向指针编程的那些事

面向对象编程,面向设计模式编 程(亦即设计模式),面向接口编程,面向模板编程(亦即泛型编程),面向函数编程(亦即函数式编程),面向多核时代的并行编程,面向大数据的机器学习编 程--这么多年,大家要面向的东西已经够多了,然而我看到的现象是,很多编程语言让大家面向 xxx 的同时在竭力回避指针.我可不想面向这么多东西,所以我只好加入指针的黑暗势力.我要不自量力的来写一篇<面向指针编程>作为投名状,借以表示我与软件世 界的光明势力的彻底决裂. 这个世界上,提供指针的编程语言很少,这样的语言有汇编语言

人工“碳”索意犹尽,智能“硅”来未可知(深度学习入门系列之二)

系列文章:一入侯门"深"似海,深度学习深几许(入门系列之一) 在前面的小节中,我们仅仅泛泛而谈了机器学习.深度学习等概念,在这一小节,我们将给出它的更加准确的形式化描述. 我们经常听到人工智能如何如何?深度学习怎样怎样?那么它们之间有什么关系呢?在本小节,我们首先从宏观上谈谈人工智能的"江湖定位"和深度学习的归属.然后再在微观上聊聊机器学习的数学本质是什么?以及我们为什么要用神经网络? 2.1 人工智能的"江湖定位" 宏观上来看, 人类科学和技术

【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

你可能不记得第一次玩"超级马里奥兄弟"是什么感觉,但试着想像一下:蓝色的天空,棋盘石的地面,还有一个蹲着的红色男人在静静等待.他面向右方,你把他推到那个方向.再多走几步,就会看到一排砖块在头顶盘旋,看起来像是一个愤怒的蘑菇.这个人跳起来,他的四像素拳头指向天空. 对于20世纪80年代长大的人来说,这个场景听起来很熟悉,但是你可以在Pulkit Agrawal的YouTube频道上看到一个更年轻的玩家. Agrawal是加利福尼亚大学伯克利分校的一位计算机科学研究人员,正在研究天生的好奇

语音识别的前世今生 | 深度学习彻底改变对话式人工智能

CNET科技行者 8月21日 北京消息:"语音识别"的终极梦想,是真正能够理解人类语言甚至是方言环境的系统.但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发. 在过去几年中,人们在人工智能和深度学习领域的突破,让语音识别的探索跨了一大步.市面上玲琅满目的产品也反映了这种飞跃式发展,例如亚马逊Echo.苹果Siri 等等.本文将回顾语音识别技术领域的最新进展,研究促进其迅猛发展进程的元素,并探讨其未来以及我们距离可以完全解决这个问题还有多远. 背景:人机交互

人工智能学习笔记

1.什么是人工智能?简单地讲,人工智能就是为机器赋予人类的智能.人类的智能体现在何处?学习.创造.归纳.演绎 2.人工智能的应用领域: a)自然语言处理(机器翻译.机器写作.机器问答) b)计算机视觉(图像识别.视频识别.人脸识别.自动驾驶) c)语音识别(语音转文字.文字转语音) d)机器人(扫地机器人.工业机器人) 3.机器学习 机器学习是实现人工智能的一种方法,具体的实现技术有:深度学习.有监督学习和无监督学习. 什么是机器学习?给定某个任务(T),通过机器不断积累经验(E)来完善,提升性

北大教授《人工智能漫谈》演讲实录

2016年4月15日晚上,北京大学研究生会.北京大学燕新社联合Xtecher共同主办"未名对话"系列讲座之一--"对话人工智能".人工智能专家.北京大学教授谭营发表演讲,主题为<人工智能漫谈>. 演讲嘉宾:谭营,北京大学计算智能实验室创建人.烟花算法发明人. 本文整理:Xtecher特稿记者 凌云  以下为谭营教授演讲实录:  人工智能的起源 说起人工智能,它的思想萌芽可以追溯到17世纪的巴斯卡和莱布尼茨,他们萌生了有智能的机器的想法. 19世纪,英国数

一路“买买买”,英特尔怎样铺平了它在人工智能上的道路?

雷锋网(公众号:雷锋网)2016年9月6日消息,英特尔今天宣布,将收购计算机视觉创业公司Movidius.后者致力于研发低功耗的计算机视觉芯片,其近年推出的Myraid 2芯片前后与Google.大疆.联想在产品和研发声有深入合作.业内人士评价,英特尔近年在人工智能的布局上真是一路"买买买". 1. 计算机视觉创业公司Movidius 2016年9月,Movidius CEO Remi El-Ouazzane在博客上宣布,该公司仍将继续其原有的使命,为机器赋予视觉能力,同时也将与英特尔

IBM:未来五年电脑将具备人类五大感知功能

北京时间12月18日消息,据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,IBM表示,未来5年电脑将具备人类视觉.听觉.味觉.嗅觉和触觉五大感知功能. 尽管现在的电脑和智能手机能够完成许多任务,从即时告知天气到购买商品,但是它们并不具备人类的感知功能,如电脑和智能手机无法告知某种织物的质感,也无法识别美味佳肴的香味. IBM表示,未来5年这种状况将会改变,到那时,电脑将会更具意识并能了解其周围的世界.IBM预计,未来5

英特尔收视觉芯片公司Movidius:金额未知

北京时间9月6日消息, 今天英特尔宣布将收购计算机视觉创业公司Movidius.Movidius可以提供低能耗计算机视觉芯片组,而且已经与谷歌.联想和大疆等公司签订了协议. 英特尔宣布将收购计算机视觉创业公司Movidius.不过遗憾的英特尔并没有披露相关细节.交易预计年底前完成. 据了解,Movidius的视觉处理平台具备了低耗高能的特点,能够主动不间断地拍摄图像并处理信息,这能够赋予联网设备感知环境的能力,是物联网设备更加智能化的关键,在虚拟现实头戴设备.家庭自动化.可穿戴设备等领域均拥有广