监督学习×强化学习,Facebook让聊天机器人学会谈判

雷锋网 AI 科技评论按:目前人们对聊天机器人的认识还在调戏微软小冰的阶段,可以明显感觉到小冰不是很关心上下文之间的关联。而且在我们的观念里,聊天机器人也没办法真的理解人类所说的话,没办法跟人类讨论事情、明确地达到什么共同目标。

不过,Facebook的人工智能研究机构FAIR刚刚开源并公开发表的聊天机器人就开始拥有了跟人类进行协商谈判、进行讨价还价的能力。通过监督学习+强化学习,这个聊天机器人不仅能理解字词和语义的对应关系,还能针对自己的目标制定策略,跟别人进行协商讨论达成一致。

以下为雷锋网(公众号:雷锋网) AI 科技评论根据FAIR文章进行的详细介绍。

生活的每一天里,我们一睁眼就要不停地跟别人协商事情。要么是讨论看哪个电视台,要么是说服家里小孩吃蔬菜,或者买东西的时候讨价还价。这几件事的共同点是,都需要复杂的交流和讲理能力,而这些能力很难在计算机里见到。

发展到现在,聊天机器人方面的研究已经可以形成聊天系统,它能进行简短对话,能完成订餐馆这样的简单任务。但是让机器人跟人进行有意义的对话还是很难的,因为这需要机器人把它对对话的理解和它对世界的知识进行组合,然后再生成一句能帮它达到自己的目标的句子。

今天,Facebook FAIR的研究员们开源并公开发表的聊天机器人有了一项新能力,这个新能力就是协商。

有着不同目标的人类之间会产生冲突,然后通过协商达成一种大家共同认可的妥协,现在研究员们证明了聊天机器人也可以做到这些。具有不同目标的聊天机器人(具体实现是端到端训练的神经网络)在一段从头到尾的协商中,可以跟其它聊天机器人或者人类一起做出共同的决定或者达到共同的目标。

任务:多种类讨价还价

FAIR的研究员们研究了一种多种类讨价还价任务下的协商任务。给两个智能体展示同一组物体(比如2本书,1个帽子,3个篮球),为了能把东西分给它们,就需要教它们协商自己分到的数目。

每个智能体都有自己的价值函数,它代表了智能体对每种物体的关心程度如何(比如在智能体1看来每个篮球值3分)。然后,就像生活中一样,每个智能体都没法确切知道别的智能体的价值函数,只能从对话中进行推测(如果对方说他想要篮球,那在他看来篮球的分值肯定比较高)。

FAIR的研究员们设计了很多类似这样需要协商的情境,而且始终不会让两个智能体同时达成自己最满意的分法。以及,如果拒绝协商(或者如果10轮对话以后还没达成一致),那么两个智能体都会得0分。简单说,进行协商是关键,如果还协商到了一个好的结果那就得分更高。

对话推演(Dialog Rollouts)

协商是一个语言性和讲理性的综合问题,其中的参与者要先形成自己的意图,还要能用语言表达出来。合作和对抗的元素都会出现在这些对话中,这就需要智能体们理解并形成长期计划,然后据此进行表达以便达到自己的目标。

为了建立这种有长期计划能力的对话智能体,FAIR研究员们有一个核心的技术创新,他们把这个点子叫做“对话推演”(dialog rollouts)。

如果聊天机器人可以建立对谈者的虚拟模型然后“提前考虑”,或者预感到未来对话的可能方向,它们就可以选择避开没有信息量的、引发困惑的或者糟糕的来回讨论,转而向着成功一些的方向去。

具体来说,FAIR开发出了对话推演这样的新颖技术,一个使用这种技术的智能体可以一直模拟未来的对话到结尾,这样它就可以选出可以在未来带来最高收益的话语。

类似的方法已经在游戏环境中得到过应用,但是用来解决语言问题还是第一次,因为可选择的行动数目要多多了。为了提高效率,研究员们首先生成了一组数量不多的话语可供选择,然后为了估计这些话语是否成功,他们对其中的每一条都反复模拟完整的后续对话。这个模型的预测准确率足够高,也要归功于这项技术从以下几个方面显著提升了协商水平:

  • 协商时候更努力:这些新的智能体能跟人类进行更长的对话,代价是对价码的接受会慢一点。相比人类有时候不达成一致就走掉了,这个实验中的模型会一直协商到取得成功的结果为止。
  • 智能化的应对:有时候会出现这样的状况,智能体一开始会假装对没什么价值的东西感兴趣,就为了后来可以放弃它们来表现出自己在“妥协”,这确实是一个人类经常使用的谈判技巧。这种行为可不是研究员们设计给它们的,而是智能体在想办法达成目标的过程中自己发现的谈判方法。
  • 产生新颖的句子:尽管神经网络模型可以很轻松地从训练数据中重复一些句子,这项研究也展示出在有必要的时候模型也能自己生成一些句子。

建立及评价一个协商数据集

为了能够训练协商智能体以及做大规模量化评估,FAIR团队用众包的方法建立了一个人和人之间协商对话的数据集。其中参与的人看到了一组东西和每个东西的价值,然后要商量他们之间怎么分这些东西。然后研究员们就用这些对话训练出了一个能模仿人类行为进行协商的循环神经网络(RNN)。在对话中的任何时刻,这个模型都会猜测人类在这种状况下会说什么。

在以前目标导向的对话研究中,模型都是完全由人类的语言和决定进行“端到端”训练得到的,这意味着这种方法可以方便地用在其它任务中。

为了让模型不仅仅停留在对人类的模仿,FAIR的研究员们接下来让模型转而向完成协商的目标发展。为了让模型达到目标,研究员们让模型自己跟自己进行了上千轮协商,并且用到了强化学习在得到好的结果的时候奖励模型。为了避免让算法生成自己的一套语言,模型同时也要训练生成类人的语言。

为了评价这些协商智能体,FAIR让它们上网跟人类聊天。之前的大多数研究都在避免跟真人聊天,或者研究的是难度更低的领域,这都是因为对各种各种的人类语言进行回答需要训练复杂的模型。

有意思的是,在FAIR的实验中,多数人都没发现跟他们聊天的不是真人,而是机器人,说明机器人已经学会如何在这个领域流畅地用英文进行对话了。FAIR最优秀的协商机器人就运用了强化学习和对话推演,它的表现已经可以跟人类谈判员相提并论。它达成的交易里,较好一些的和糟糕一些的差不多多,这也说明了FAIR的聊天机器人不仅会说英语,而且还能智能地考虑应该说什么。

用于聊天机器人的强化学习

监督学习可以模仿人类用户的动作,但是它没法具体表现出达成目标的意志。FAIR团队选了另一种方法,他们先用监督学习进行预训练,然后用强化学习的方法结合评价指标对模型进行微调。以结果来说,他们用监督学习学到了如何把语言文字和意思相对应,然后用强化学习帮助判断说什么语句。

在增强学习中,智能体会试着根据自己与另一个智能体之间的对话优化自己的参数。不过同时这另一个智能体也可以是一个人,所以FAIR就用了一个训练过的监督学习模型来模仿人类。这个模仿人类的模型是固定不变的,因为研究者们发现如果两个模型的参数都可以优化的话,它们之间的对话就会偏离人类的语言,演化出一种它们自己的谈判语言。在每一场对话结束以后,智能体都会根据自己谈成的结果得到奖励。这种奖励是用智能体整个过程里的所有语言输出运用策略梯度进行反向传播得到的,目的是为了让智能体有更高的可能性选择会有更高奖励的动作。

期待更高发展

对Facebook来说这是一项突破性的研究,对整个研究领域和机器人开发者来说,这是建立能讲道理、交谈、协商的机器人的重大进展,而这几项都是建立个性化数字助理的重要组成部分。

对FAIR的研究人员而言,他们也希望与其它的研究人员继续共同讨论研究成果、共同分析想要解决的问题。他们也期待更多有才干的人投入想法和精力,推动这个领域进一步发展。

via Deal or no deal? Training AI bots to negotiate,雷锋网 AI 科技评论编译

本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-18 16:42:22

监督学习×强化学习,Facebook让聊天机器人学会谈判的相关文章

Facebook:“聊天机器人”代表着Messenger应用未来

4月13日,社交网络巨头Facebook周二称,该公司正在与20多家公司展开合作,加倍押注于将其Messenger应用转变为购物.新闻和娱乐活动的中心. 在周二于旧金山召开的年度FA8开发者大会上,Facebook向开发者展示了如何在Messenger应用中构建所谓的"聊天机器人"以便对客户服务问题作出应答.提供天气更新信息以及帮助用户订购商品等,这种"聊天机器人"将令其无需使用人工服务. Facebook目前还处在这个项目的初期阶段,已有25家以上公司与其达成合作

让AI聊天机器人成为谈判专家 Facebook前进了一大步

北京时间6月15日消息,Facebook研究人员表示,在训练聊天机器人谈判方面他们已经取得进步. Facebook AI Research(简称FAIR)团队最近发表论文,介绍了机器人如何在会话中提前制定计划,使用谈判策略. 开发出可以推理.可以交谈.可以谈判的聊天机器人,这就是Facebook的总目标,如此一来Facebook个人助手就可以与对手竞争,比如谷歌助手.亚马逊Alexa.苹果Siri和微软Cortana,还有更多的其它助手. 在博客文章中,Facebook说聊天机器人可以进行简短会

Facebook聊天机器人可以订餐订桌了

北京时间7月27日上午消息,订餐应用Allset本周二面向旧金山.帕罗奥尔托和纽约的用户推出了一款Facebook Messenger聊天机器人,可以提供订餐.结账.订桌等功能. 自从Facebook今年4月在Messenger聊天应用中增加聊天机器人功能后,各大企业都纷纷推出自己的聊天机器人.雅虎今年7月发布了一整套聊天机器人,可以为用户提供天气查询和新闻资讯.CNN也发布了一个聊天机器人. 现在,连订餐都能使用聊天机器人了.Allset的聊天机器人还可以查询附近的餐馆,并提供推荐菜单.目前为

强化学习

前言 机器学习可以大致分为四类: 监督学习 无监督学习 半监督学习 强化学习 监督学习是利用标记了的样本进行学习,无监督学习则是使用未标记的样本进行学习,这两个是我们最常见的.半监督学习则是样本中只有少量带标记的样本,多数样本都未标记,利用这些样本进行学习.强化学习则是很不同的一种学习方式,它没有规则的训练样本和标签,主要通过奖励和惩罚达到学习的目的. 什么是强化学习 <最强大脑>曾经有个挑战项目叫蜂巢迷宫,挑战者不断尝试不断试错.强化学习做法也类似,它主要包含三个概念:状态.动作和回报.同样

界面按钮太多 聊天机器人都快被玩坏了

10月8日消息,据VentureBeat报道,分析聊天机器人工具Dashbot.io近来处理的信息超过7000万条.对于开发者来说,在此期间最常遇到的问题之一就是界面按钮太多.自由形式的文本输入与按钮驱动的界面相比,哪种情况下聊天机器人的表现更好? 我们可以看看过去3个月中,Facebook的聊天机器人在Dashbot.io平台上的表现.请记住,这是纵观所有机器人,而非基于垂直行业或特定使用案例进行分割.在高水平层次,我们发现按钮和快速回复相结合的机器人表现更好,但太多按钮则会对吸引人们参与会话

聊天机器人突然火了 Line宣布也将开发挑战FB们

几乎是在一夜之间,全世界移动聊天行业,突然掀起了一股聊天机器人(智能聊天软件)的热潮,微软.Facebook以及中国的微信,都已经推出了产品.而据英国金融时报报道,亚太地区十分流行的聊天工具Line,也将开发聊天机器人. 据报道,Line正在进行相关的开发,以挑战已经发布产品的Facebook和微信. 该公司的首席执行官出泽刚表示,在聊天机器人的开发方面,Line公司目前可能处于不太有利的位置,其中一些竞争对手在最近几个星期成为媒体报道的主角,不过在迎接下一代人工智能商业沟通方面,Line不会有

FB为何推聊天机器人?让Messenger成用户联系商家渠道

4月13日消息,路透社周二报道称,全球最大的社交网站Facebook周二表示将向开发者开放即时通讯应用Messenger,让他们为其开发"聊天机器人",借此让用户和商户进行一对一的对话,加倍押注于将其Messenger应用转变为购物.新闻和娱乐活动的中心. 在周二于旧金山召开的年度FA8开发者大会上,Facebook向开发者展示了如何在Messenger应用中构建所谓的"聊天机器人"以便对客户服务问题作出应答.提供天气更新信息以及帮助用户订购商品等.这种"

学习笔记TF059:自然语言处理、智能聊天机器人

自然语言处理,语音处理.文本处理.语音识别(speech recognition),让计算机能够"听懂"人类语音,语音的文字信息"提取". 日本富国生命保险公司花170万美元安装人工智能系统,客户语言转换文本,分析词正面或负面.智能客服是人工能智能公司研究重点.循环神经网络(recurrent neural network,RNN)模型. 模型选择.每一个矩形是一个向量,箭头表示函数.最下面一行输入向量,最上面一行输出向量,中间一行RNN状态.一对一,没用RNN,如

详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台

这周,机器学习顶级会议 NIPS 2017 的论文评审结果已经通知到各位论文作者了,许多作者都马上发 Facebook/Twitter/Blog/朋友圈分享了论文被收录的喜讯.大家的熟人 Facebook 人工智能研究院研究员田渊栋也有一篇论文入选,论文名为「ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games」.这篇论文介绍了他们构建的强化学习研究平台 ELF,为环境