强化学习之父Sutton访谈:创造AI,就是创造一种新的人类

在Machine Learning and the Market for Intelligence 2017大会上,艾伯塔大学计算机科学教授Richard S. Sutton与美国企业家、风险投资人士Steve Jurvetson进行了关于“为何目标对于智能至关重要”的对谈。

Richard S. Sutton是艾伯塔大学计算科学系的教授兼iCORE主席。在2003年加入艾伯塔大学之前,他曾在美国AT&T公司和GTE实验室以及马萨诸塞大学工作。他于1984年获得马萨诸塞大学计算机科学博士学位,并于1978年获得斯坦福大学心理学学士学位。2016年他当选为加拿大皇家学会会员。在艾伯塔大学,Sutton领导了强化学习和人工智能实验室,是艾伯塔机器情报研究所的首席研究员。他的研究兴趣集中在决策者与环境相互作用所面临的学习问题上,他认为这是人工智能的核心。他还对动物学习心理学,连接网络以及不断改进世界的表征和模型的系统感兴趣。Richard Sutton 被认为是强化学习之父。今年6月,Demis Hassabis宣布Richard Sutton将联合领导一个位于加拿大的DeepMind办公室,同时在艾伯塔大学保留他的教授职位。

Q: AI以人类为中心?或是一个完全不同的物种(对人类生存具有攻击性和毁灭性)?(human-centric or alien AI)

A: 我想提出一种观点,AI比我们想的更加以人类为中心。通常的观点都是认为AI与人类相对立,机器会淘汰人类。但这仅是一家之言,因此我提出另一种观点来平衡上述观点。先从“人工智能”这个名字说起。这个名字暗示着这是一种和人类智能不同的智能,是人造的智能。但首先我们要定义这是一种与人类相似的智能。所以从定义来看,AI是以人类为中心的。因此,也许我们不该把它叫做“人工智能”,我们应该直接叫它“智能”。现在人们都把AI看作是一种工程上的存在,不是一种类人的存在。但我认为,在当今很多领域,AI都是以人类为中心的。比如机器翻译就是关于人的沟通。因此,AI实际上是在增强 (enhancing) 人类,这也是AI具有重要商业意义的原因。AI不是在完虐人类,而是在增强人类。

Q: 这听起来很像是人类的感知,视觉、触觉、听觉乃至嗅觉都已经通过模拟的方式被使用了。这意味,我们可以了解经过刻意训练的输入输出。但我们真的了解内在原理吗?

A: 这同样涉及到人类。人类也有神经网络,用来形成反射、反应、直觉等。我们不了解人类是如何做到这些的,但我们就是相信。人们为什么相信司机、飞机驾驶员?为什么相信那些做重要商业决策的人?这个道理同样适用于机器。从宇宙范围来看,人类就是一种地球上能够发明工具的动物。历史上,人类通过发明工具、创造技术来增强自身。比如,铅笔、眼镜这些都是异常强大的工具。而且语言本身就是最重要的工具。我们用眼镜增强自己。我们通过语言来更好地交流合作。所以,人类通过创造工具来过得更好。这和AI没什么差别。无法将人类与技术割裂开来。

Q: 你是否相信,有一天自主代理机器人情感系统将成为通往通用人工智能的一步?

A: 我认为预测是一个很微妙复杂的事情。作为普通人,预测能使人作出更好的决策。但AI超越了这一点。AI将决策、目标和预测整合在一起。就像养育孩子一样,孩子是自主的,他们的目标并不在家长的掌控之下。我的专长是建立一个类似的情感系统,有绝对的自主权和决策权。

Q:你提到了好几次“目标”。看起来这是一个关键因素。你认为这是一个通向更高智力水平的路径吗?

A: 是的。我们要有更多、更抽象的目标。但不能光有目标,而没有实现目标的系统。

“目标”是一个简单的词,但你很可能会被误导。处理方法是去找一些更长的词组,例如“寻找目标”、“目标性”等。“目标”对于智能来说是至关重要的。假设有一个非常聪明的存在能够进行预测,它有一个想达成的目标。它就能根据目标采取行动。

另外,我还想谈一下人们对AI的担忧。有很多报道都将AI和人类对立起来,认为我们终将被淘汰。这种想法是错误的。在我看来,AI将增强人类,它将淘汰的是人类的“旧我”(former selves)。但我承认的确存在这种将AI与人类对立起来的趋势。我认为这都是“人工智能”这个名字惹的祸。这让AI听起来很像外星人。

我想说的是,我们正在设计创造一种全新的人类。我们将要创造一种新的存在,可能和人类的肤色、宗教略有不同。人类对此感到恐惧,这是正常的。人们总是对与自己不同的事物心生恐惧。Alpha Go是一个很好的例子。在西方,很多人认为它是与人类相对的机器。但在围棋社区里,有人认为它是一个神奇的机器,能够很好地去理解围棋,与人们一道加入对于围棋这项优雅游戏的无限探索之中。因此,我认为我们需要学会来欢迎AI这种不同类型的“人”。它具有如此多的多样性,我们为何不欢呼庆祝?

Q:我们想听听您评价AlphaGo Zero。问题是,扔掉人类的训练数据集似乎是创造更好的产品的一个方式,这如何适用于这种框架?

A:我们需要可扩展的方法。现在没有人这么做,这让我很吃惊,没有人展示计算机计算能力的指数级增长。你知道,现在这有一点mundane,但是这是一个复杂的效果,我们很难去意识到,我们需要可以扩展的方法和强大的计算力。我的意思是不仅要扩展问题的大小,还有随着计算力一起扩展,你的计算能力越强,你的系统效果就越好。所以,如果你是从人类的数据库中进行学习,那么很快,训练数据集很快就会成为你的瓶颈。

Q:早期在计算机国际象棋上的研究发现,最高段的棋手+计算机的组合,并没有直接使计算机能力更强?最新的AlphaGo Zero,如果我没有理解错,也是没有进入人类训练这一循环,只需要与其他的计算机进行对抗学习。从哲学上说,这跟您刚才所提到的以人类为中心(huaman centric approach)似乎是完全相反的?

A: 其实不是的。作为人类,我们并不只是在学校才会学习。我们从很小的时候就开始学习,甚至在还没开始说话前,我们就开始学习。我们通过试错进行学习。

接下来我要谈一谈强化学习,这是我所擅长的专业领域,也是我最喜欢的一种“学习”。强化学习就是在试错中进行学习,这种试错中使用的是“自学习”的方法,你需要在很多很多的对局中进行尝试。所以,这并不是从人身上进行学习,而是以人类学习的方式进行学习。这和人类很像,就是从不断的尝试中进行学习。

确实,在游戏的对弈中,你可以进行无数次的尝试,这一方法(AlphaGo Zero)确实利用了这一点。但是,试错这一想法本身并不要求有模拟。

我还要补充一点,博弈是很特殊的,因为我们知道游戏的规则,我们可以分解它让后知道其运行的规则是什么。我们知道桌上的花瓶可能会掉到地上,因为我们知道物理理论,知道物体移动的方式,所以我们需要制定计划。

正如AlphaGo要用到现实世界,你需要用现实世界的规则来替代围棋的规则,比如,物理定律是什么、很重要的是,物理定律很多都是直觉性的,比如,我打了我朋友一拳,他可能会还回来。这可能不是物理定理,比如如果我尖叫,那么我的保镖可能会过来提供帮助。

所以,我们需要了解世界的运行方式,我们需要制定计划。在象棋、围棋和扑克中,我们可能不能计划得那么好。

原文发布时间为:2017-11-27

本文作者:Cecilia 弗格森

原文链接:强化学习之父Sutton访谈:创造AI,就是创造一种新的人类

时间: 2024-09-21 14:43:49

强化学习之父Sutton访谈:创造AI,就是创造一种新的人类的相关文章

【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日,距离发布AlphaGo Zero论文后不到两个月,他们在arXiv上传最新论文<用通用强化学习算法自我对弈,掌握国际象棋和将棋>(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algori

深度强化学习、GAN与多巴胺对撞:阿里“AI 智能体”认知研讨会干货

2017年4月,阿里巴巴首次向外公布在人工智能"认知"层面上的研究成果:阿里巴巴认知计算实验室与伦敦大学学院计算机系合作,以游戏"星际争霸1"中的微观战斗场景为测试环境,深入地研究了多个 AI 智能体之间的协作难题,旨在通过协作智能解决人类不擅长的问题. 该研究引入的多智能体双向协作网络(BiCNet )可以自动学习游戏中的各种最佳策略,以使多个智能体协同作战,从无碰撞移动到基本的攻击和逃跑策略,再到复杂的掩护攻击和集中火力攻击. 据介绍,该研究在对战游戏中与其他方

专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用

12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办.(https://yq.aliyun.com/promotion/139) 系列文章陆续发布: 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用 专访阿里巴巴林伟:三项世界级挑战背后的思考.实践和经验 专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面 价

从概念到应用,全面了解强化学习

虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了. 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 应用举例 1. 定义 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策. 它主要包含四个元素,agent,环境状态,行动,奖励,强化学习的目标

UCL计算机系教授汪军:如何进行大规模多智体强化学习?| CCF-GAIR 2017

雷锋网AI科技评论按:7月7号,全球人工智能和机器人峰会在深圳如期举办,由中国计算机学会(CCF)主办.雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的这次大会共聚集了来自全球30多位AI领域科学家.近300家AI明星企业.雷锋网最近将会陆续放出峰会上的精华内容,回馈给长期以来支持雷锋网的读者们! 今天介绍的这位嘉宾是来自伦敦大学学院的汪军教授,分享主题为"群体智能". 汪军, 伦敦大学学院(UCL)计算机系教授.互联网科学与大数据分析专业主任.主要研究智能信息系统,主要包括数据挖

(转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

  本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA   专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 2017-01-28 Yuxi Li 机器之心 选自arXiv 作者:Yuxi Li 编译:Xavier Massa.侯韵楚.吴攀     摘要   本论文将概述最近在深度强化学习(Deep Reinforcement Learning)方面喜人的进展.本文将从深度学习及强化学习的背景知识开始,包

引入秘密武器强化学习,发掘GAN在NLP领域的潜力

1.基础:文本生成模型的标准框架文本生成(Text Generation)通过 机器学习 + 自然语言处理 技术尝试使AI具有人类水平的语言表达能力,从一定程度上能够反应现今自然语言处理的发展水平. 下面用极简的描述介绍一下文本生成技术的大体框架,具体可以参阅各种网络文献(比如:CSDN经典Blog"好玩的文本生成"[1]),论文等. 文本生成按任务来说,比较流行的有:机器翻译.句子生成.对话生成等,本文着重讨论后面两种. 基于深度学习的Text Generator 通常使用循环神经网

详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台

这周,机器学习顶级会议 NIPS 2017 的论文评审结果已经通知到各位论文作者了,许多作者都马上发 Facebook/Twitter/Blog/朋友圈分享了论文被收录的喜讯.大家的熟人 Facebook 人工智能研究院研究员田渊栋也有一篇论文入选,论文名为「ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games」.这篇论文介绍了他们构建的强化学习研究平台 ELF,为环境

强化学习全解;Facebook 机器学习@Scale 2017 资料汇总 | 开发者日报

强化学习全解 强化学习(Re-inforcement Learning) 是一种基于与环境互动的目标导向的学习.强化学习被认为是真正的人工智能的希望.作者认为这是正确的说法,因为强化学习拥有巨大的潜力. 据雷锋网(公众号:雷锋网)了解,很多人说,强化学习被认为是真正的人工智能的希望.本文从 7 个方面带你入门强化学习,读完本文,希望你对强化学习及实战中实现算法有着更透彻的了解. 详情:http://dataunion.org/27366.html Facebook 机器学习@Scale 2017