End-to-end LSTM-based dialog control optimized with SL and RL

本文介绍的paper一个实用性非常强的解决方案,作者来自于微软研究院,毕业于剑桥大学Spoken Dialogue Group,研究bot很多很多年了。paper的题目是End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning,最早发表于今年的6月3日。

文章的开头很有意思,先是从一个大家熟知的场景开始介绍,一个经验丰富的客服是如何带一个新入职的客服。四个阶段:

1、告诉新客服哪些”controls”是可用的,比如:如何查找客户的信息,如何确定客户身份等等。
2、新客服从老客服做出的good examples中模仿学习。
3、新客服开始试着服务客户,老客服及时纠正他的错误。
4、老客服放手不管,新客服独自服务客户,不断学习,不断积累经验。

本文的框架就是依照上面的过程进行设计的:

1、开发者提供一系列备选的actions,包括response模板和一些API函数,用来被bot调用。
2、由专家提供一系列example dialogues,用RNN来学习。
3、用一个模拟user随机产生query,bot进行response,专家进行纠正。
4、bot上线服务,与真实客户进行对话,通过反馈来提高bot服务质量。

一个完整的工作流程由上图描述:

本文在训练的时候是用一部分高质量的数据进行监督学习SL,用增强学习RL来优化模型,得到质量更高的结果。并且文中以打电话给指定联系人为应用场景,举了一个实际的例子,来帮助理解本文的思路。

一般来说,很多文章提到end-to-end的模型,都是基于大量训练数据用seq2seq来做response的生成,本文并不是这样,本文的神经网络模型是用来训练action selection的,包括后面用RL policy gradient来提升效果也都是为了选择action。虽然本文不是一个纯粹的end-to-end解决方案,但确实一个非常实用的解决方案,尤其是对于task-oriented bot的业务来说,这样的解决方案更加高效,值得复现,值得在一些细节的地方进行改善,从而真正地减少人工features和人工成本。

来源:paperweekly

原文链接

时间: 2024-07-30 12:37:01

End-to-end LSTM-based dialog control optimized with SL and RL的相关文章

What does SAP SD look like in SAP S/4 HANA?

What does SAP SD look like in SAP S/4 HANA? – Changes and simplifications  https://eursap.eu/2017/03/08/sap-sd-in-saps4hana/  What does SAP SD look like in SAP S/4 HANA? In this blog, I shall begin exploring the SAP S/4HANA Line of Business (LoB) tha

ASP.NET系统用户权限设计与实现

摘 要 本文依据RBAC的基本思想,利用ASP.NET中的用户控件技术,设计了在电子商务系统中用户权限控制的一种具体实现方法. 关键词 ASP.NET 角色访问控制 用户控件 引言 电子商务系统对安全问题有较高的要求,传统的访问控制方法DAC(Discretionary Access Control,自主访问控制模型).MAC(Mandatory Access Control,强制访问控制模型)难以满足复杂的企业环境需求.因此,NIST(National Institute of Standar

编程-VB 引用同一根目录下的文件夹的Excel

问题描述 VB 引用同一根目录下的文件夹的Excel exe文件跟文件夹的根目录一样,要引用文件夹下面的Excel部分单元格的数据各位高手帮我解答下,新人的第一条提问 解决方案 '工程-引用-将Microsoft Excel 12.0 Object Library选中,'工程-部件-将Microsoft Common Dialog Control 6.0选中,'在窗体上添加一个按钮Command1对象,一个CommonDialog1通用对话框对象Private Sub Command1_Clic

深圳地铁遭WiFi逼停调查:WiFi会干扰但合法

对于日前暴露的"深圳地铁因信号系统受干扰发生暂停故障"事件,一位参与该事故调查的相关人士给新浪科技发来了详细情况说明,其认为,列车急停确实 是因为受到便携式WIFI路由器影响,但这是因为地铁使用的"车-地"通信使用的频率和普通WLAN设备相同,但便携式WIFI路由器使用2.4G频段频 率是合法的. 深圳地铁受WIFI干扰原因分析 据悉,调查显示,今年7月以来,深圳地铁蛇口线和环中线列车陆续因信号系统受干扰发生暂停故障.11月以来,由于发生次数频繁,引发了各界对地铁安

利用VB提取HTML文件中的EMAIL地址

电子邮件(EMAIL)是INTERNET上应用最广泛的一种服务之一.我们每天都在使用电子邮件,有时为了宣传我们的产品.网站等,更是离不开电子邮件,这就需要收集很多的EMAIL地址.下面我们将向大家介绍用VB自编一个EMAIL地址提取器,用来提取保存在我们硬盘中的HTML文件中所包含的EMAIL地址. 一 设计界面 进入VB,选择"标准EXE"新建一工程,选择"工程"菜单下的"引用",选中Microsoft scripting Runtime&qu

Access下如何使用通用对话框

很多用ACCEE97开发过数据库的用户都有这种体会:要想在窗体中添加一个命令按钮实现打开通用对话框的功能真是很困难.因为ACCESS97本身并未提供这类控件,所以必须通过编写有关的宏才能实现该功能,但是编写出的宏限制很多,比如:在选择文件类型时不能同时存在多种文件格式,必须预定义好某一种格式等等. 最近笔者在开发INTRANET信息采集系统时偶得一控件,恰恰能完成打开通用对话框的功能,并且效果极佳,不敢独享,拿来与诸君共享之. 因为该控件存放于VB6中,所以具体使用方法和在VB中类似. 其他控件

如何将Access和Excel导入到Mysql中之三

access|excel|mysql 二.导库的VB程序 这个工程要使用一些对象库,在数据库访问方面,决定使用ADO(ActiveX Data Objects),对于使用过ASP的人,这个名字应该非常熟悉了,实际上,它在VB中的应用也是几乎一样的,由于要操作Excel,还要引用一个扩展的对象库.点菜单中的"工程"---"引用",选择"Microsoft ActiveX Data Objects 2.6 Library"和"Microso

关于控件注册和使用许可问题的解决办法

解决|控件|问题 鉴于前一段时间受困于微软控件的授权问题,而且互联网上也很难找到问题的解决方案,这两天论坛中也不停有网友在问相类似的问题,特撰写此文,以飨VCKBASE各位网友. 大家都知道,对于普通的OCX控件,我们在发布时,使用安装软件拷贝到目标机器上然后再注册一下(或者手工拷贝然后用Regsvr32注册)就可以了 . 但是对于微软提供的一些控件,比如 Microsoft ADO Control,Microsoft Datagrid Control等等,常常发现,在开发的机器上使用的好好的

关于VB.net中无法使用VB6控件

控件 其实VS.net第三张安装盘上已经给出了一个注册表文件,导入就可以注册VB6控件.如果一时找不到,下面是这个文件的内容: REGEDITHKEY_CLASSES_ROOT\Licenses = Licensing: Copying the keys may be a violation of established copyrights. // Masked Edit Control 6.0 license keyHKEY_CLASSES_ROOT\Licenses\BC96F860-99