首发!三角兽被 EMNLP 录取论文精华导读:基于对抗学习的生成式对话模型浅说

雷锋网按:近日,三角兽科技 AI Lab 的一篇论文,被世界顶级自然语言处理会议
EMNLP 高分录取,论文题目为:Neural Response Generation via GAN with an Approximate
Embedding Layer,由三角兽研究团队与哈工大 ITNLP
实验室合作完成。论文中提出了一种新的对话文本对抗生成学习框架,目的是解决文本生成过程中的采样操作带来的误差无法反向传导的实际问题,从而实现基于对抗学习的聊天回复生成模型。

以下为三角兽研究团队所写的论文精华导读,雷锋网(公众号:雷锋网)授权首发:

引言

在最近几年里,深度学习
(Deep Learning,
DL)在自然语言处理领域不断攻城略地,使得过去被认为很难取得突破的研究方向的难度有所降低,其中最为人们所津津乐道案例的当属
Sequence-to-Sequence (S2S) 在对统计机器翻译(Statistical Machine Translation,
SMT)领域的颠覆性突破,进而产生了全新的基于神经网络的机器翻译(Neural Machine Translation, NMT)范式[1,
2]。这个新范式的影响甚至已经波及到了其他相关领域,其中就包括本文即将讨论的生成式自动聊天系统(Generation based
Chatting System)[3, 4, 5]。

通常认为自动聊天系统(Automatic
Chatting
Systems)可以通过两种技术路线实现:一种是将信息检索系统构建于大规模对话数据集之上,通过建立有效的问句匹配和问答相关度量化模型实现对用户
query的合理回复[6],本文不做赘述;另一种技术路线则试图通过构建端到端(End-to-End)的深度学习模型,从海量对话数据中自动学习
query 和 response 之间的语义关联,从而达到对于任何用户 query
都能够自动生成回复的目的。如果说基于信息检索的技术路线偏重工程实现的话,那么基于生成的技术路线则显得更加学术。

生成式聊天模型的提出与
NMT 有着极为紧密的关联,这种关联可以追溯到深度学习尚未如此风行的年代:在早期的问答系统(Question Answering
Systems)的相关研究中,人们就已经把SMT
的相关模型和方法应用在答案筛选排序模块里,并取得了不错的效果[7]。这背后的原因是,为一个问题寻找答案的过程可以看作是一种特殊的翻译过程,在这个特殊的翻译过程中,问题和答案分别位于翻译模型的两端,如此一来,一个
question-answer pair 实际上等价于 SMT 需要处理的一条平行语料,而 SMT
的训练过程实际上也就等价于构建问题和答案当中词语的语义关联过程。在 NMT
取得巨大成功之后,这种新的范式很自然的被应用在聊天回复的自动生成上,于是本文所要讨论的第一个直观思维产生了:聊天可以看作是一种特殊的不以获取信息为目的的问答,同时
SMT 可以用来寻找答案,且 NMT 是 SMT 的一种高级形态,那么 NMT
模型可望用来实现聊天回复的自动生成。如今,我们把这种新的自动聊天模型架构命名为 Neural Response Generation(NRG)。

NRG 面临的挑战

不可否认,采用
NRG 模型生成的一部分聊天回复在主题上确实能够做到与相应的 query
吻合,甚至会有个别语义相关度较高且可读性很好的回复可以被生成出来,饶是如此,恐怕不会有人认为 NRG 复制了 NMT
模型在机器翻译领域的成功,其主要原因就是,这种端到端模型生成的绝大多数答案严重趋同,且不具有实际价值,即无法让人机对话进一步进行下去,例如,对于任何的用户

query,生成的结果都有可能是“我也觉得”或“我也是这么认为的”。无论模型在中文数据还是在英文数据上进行训练,这种现象都非常明显,由于模型生成的绝大多数结果对于任何
query 都勉强可以作为回复,于是我们把这种生成结果形象的命名为 safe response[8]。

显而易见,safe
response
的大量存在将使自动聊天系统显得索然无味,使用户失去与系统互动的热情,因此目前的实用聊天系统仍然是以信息检索模型为主要架构。简而言之,NRG
模型如果想要在实际产品中发挥作用,避免 safe response 的生成是必须要解决的问题,无可回避。

Safe
response
问题的产生可能是多种因素共同作用的结果,本文仅从最直观的方向切入这个问题。这里不妨思考这样一个问题:在同样的数据组织形式,同样的模型结构,合理的假设的情况下,为什么
NMT模型没有遇到如此明显的 safe translating result 的问题?这时候回顾 NMT 模型的工作流程是很有必要的:NMT
模型由两个部分组成,一部分负责对 source sentence 进行语义表示,将其压缩成指定维度的语义向量,因此可以称其为
encoder;另一部分负责接收 encoder 提供的语义向量,并在语义向量的“指导”下,逐个挑选词语组成 target
sentence,这个部分通常被称作 decoder。一言以蔽之,encoder
负责提供输入信号的语义表示,decoder则实际上实现了一个以该语义表示为初始条件的语言模型。

图1 经典的 Sequence-to-Sequence 模型[1]

如此一来,safe
response
的症结之一就呼之欲出了:如果比较机器翻译和聊天的训练数据就不难发现,聊天数据中词语在句子不同位置的概率分布具有非常明显的长尾特性,这一特性通常在句子开头几个词语上体现得尤为明显,例如,相当大比例的聊天回复是以“我”“也”作为开头的句子,相对地,对于主要以正规文本为数据源形成的
SMT 平行语料来说,这种情况出现的可能会依数量级地减少。在这样的情况下,词语概率分布上的模式会优先被 decoder
的语言模型学到,并在生成过程中严重抑制 query 与 response 之间词语关联模式的作用,直观来看,即便有了 query
的语义向量作为条件,decoder 仍然会挑选概率最大的“我”作为 response
的第一个词语,又由于语言模型的特性,接下来的词语将极有可能是“也”……以此类推,一个 safe response 从此产生。

一个直观的解决方案

NRG
模型产生 safe response 的问题可以说是意料之外情理之中的事情,于是人们坚定地对这个难题发起了挑战。常见的解决方案包括:通过引入
attention mechanism 强化 query 中重点的语义信息[4],削弱 decoder
中语言模型的影响[8],从广义上来说,引入 user modeling 或者外部知识等信息也能够增强生成回复的多样性[9, 10]。

而当我们跳出对于模型或者数据的局部感知,从更加全局的角度考虑
safe response 的问题的时候,一个非常直观的方案扑面而来:产生 safe response 的 S2S
模型可以认为是陷入了一个局部的最优解,而我们需要的是给模型施加一个干扰,使其跳出局部解,进入更加优化的状态,那么最简单的正向干扰是,告知模型它生成的
safe response 是很差的结果,尽管生成这样的结果的 loss 是较小的。

一个直观的思想,开启了生成式对抗网络(Generative Adversarial Networks, GAN)[11]在生成式聊天问题中的曲折探索。

知易行难


GAN 引入聊天回复生成的思路显得如此水到渠成:使用 encoder-decoder 架构搭建一个回复生成器G,负责生成指定 query
的一个 response,同时搭建一个判别器 D 负责判断生成的结果与真正的 response 尚存多大的差距,并根据判别器的输出调整生成器
G,使其跳出产生 safe response 的局部最优局面。

然而当我们试图通过对抗学习实现文本生成的时候,一个在图像生成的
GAN 模型中从未遇到的问题出现在面前,那就是如何实现判别器D训练误差向生成器G的反向传播(Backpropagation)。对于基于
GAN的图像生成模型来说,这种误差的反向传播是如此的自然,因为 G 生成图像的整个过程都是连续可导的,因此 D 的训练误差可以从 D
的输出层直接传导到 G 的输入层。而对于文本的生成来说,一个文本样本的生成必然伴随 G
在输出层对词语的采样过程,无论这种采样所遵循的原则是选取最大概率的 greedy思想还是 beam
searching,它实际上都引入了离散的操作,这种不可导的过程就像道路上突然出现的断崖,阻挡了反向传播的脚步,使对于 G
的对抗训练无法进行下去。

为了解决文本生成过程中的采样操作带来的误差无法传导的实际问题,从而实现基于对抗学习的聊天回复生成模型,三角兽研究团队在论文
Neural Response Generation via GAN with an Approximate Embedding Layer
中提出了一种新的对话文本对抗生成学习框架,目前本论文已经被 EMNLP 2017 录用。

图2 基于GAN-AEL的对抗学习框架

图2展示了论文提出的
GAN with an Approximate Embedding Layer (GAN-AEL)的基本框架。我们使用 GRU
构建回复生成模型 G 的主体,用 CNN 构建判别器 D 用以判断 query 与(真实存在的或模型生成的)response
之间的语义是否相关。在给定一个 query 的情况下,模型 G 通过 encoding-decoding 过程生成一个 fake
response,这个 fake response 将与 query 构成一个负样本,同时,query 在与训练数据里的真正的 response
构成一个正样本,判别器 D 的训练目标即是尽可能的区分上述正负样本。

如前文所述,引入对抗学习改善文本生成的关键问题是如何解决文本生成过程中由采样带来的不可导问题,从而实现判别器误差向生成器的正确传播。本文直面此问题,为生成器
G 构建了一个 Approximate Embedding Layer (AEL
如图中红色矩形框中所示,其细节在图右侧部分给出),这一层的作用是近似的表达每次采样过程,在每一个 generation step
中不再试图得到具体的词,而是基于词语的概率分布算出一个采样向量。这个操作的具体过程是,在每一个 generation step 里,GRU
输出的隐状态 h_i 在加入一个随机扰动 z_i 之后,经过全连接层和 softmax
之后得到整个词表中每个词语的概率分布,我们将这个概率分布作为权重对词表中所有词语的 embedding
进行加权求和,从而得到一个当前采样的词语的近似向量表示(如图2中右侧绿框所示),并令其作为下一个 generation step
的输入。同时,此近似向量同样可以用来拼接组成 fake response 的表示用于 D
的训练。不难看出,这种对于采样结果的近似表示操作是连续可导的,并且引入这种近似表示并不改变模型 G 的训练目标。

我们的一小步

作为生成器和判别器的耦合媒介,AEL 的建立保证了对抗学习框架在面向聊天的 response generation 问题上应用的合理性。为了验证这种合理性,我们在目前常见的中英文对话数据上对我们的模型进行了验证,其结果如下表所示:

表格中的
Seq2Seq、MMI-anti 和 Adver-REGS 分别代表经典 encoder-decoder、引入 anti-language
model 机制的 S2S 和一种基于强化学习的 GAN
模型架构。我们试图从生成结果的语义相关性(Relevance)和多样性(Diversity)两个方面对比几个模型,可以看到本文提出的
GAN-AEL 在保证语义相关性的情况下,明显提高了生成 response 的多样性。

为了直观的展现模型在多样性方面的提升,我们给出了一些实际生成结果的样例,如下表所示。

我们的模型给出了有关模型的理论细节、评测指标以及baseline方法的具体描述,有兴趣的读者可以持续关注我们放出的论文。

结语

两个直观的

idea,开启了基于深度学习模型的端到端自动聊天系统的研究,引出了对抗学习在聊天回复生成中的曲折探索。诚然,当前最引人关注的模型配上最热的研究方向,对于任何的研究者来说都具有很强的吸引力,但是,要做到直面关键问题,潜心寻找解决问题的途径,需要的则是务实的钻研,任何浮躁的心态都有可能让研究工作最终沦为无聊的灌水。

让机器自动生成任何 query 的回复是一个极其困难的问题,因为我们试图挑战的是人类的语言能力。挑战难题的过程就像登山,任何一个新的方法的提出未必代表我们铺建了通往山顶的路,而是给人们提供了一根登山杖,让人们走得更远。

参考文献

[1]
Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to
sequence learning with neural networks. In Proceedings of the 27th
International Conference on Neural Information Processing Systems,
NIPS’14, pages 3104–3112, Cambridge, MA, USA. MIT Press.

[2]
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau,
Fethi Bougares, Holger Schwenk, and Yoshua Bengio. 2014. Learning
phrase representations using rnn encoder–decoder for statistical machine
translation. In Proceedings of the 2014 Conference on Empirical Methods
in Natural Language Processing (EMNLP), pages 1724– 1734, Doha, Qatar.
Association for Computational Linguistics

[3]
Baotian Hu, Zhengdong Lu, Hang Li, and Qingcai Chen. 2014.
Convolutional neural network architectures for matching natural language
sentences. In Advances in Neural Information Processing Systems 27:
Annual Conference on Neural Information Processing Systems 2014, pages
2042–2050

[4] Lifeng Shang, Zhengdong
Lu, and Hang Li. 2015. Neural responding machine for short-text
conversation. In Proceedings of the 53rd Annual Meeting of the
Association for Computational Linguistics and the 7th International
Joint Conference on Natural Language Processing, pages 1577–1586,
Beijing, China. Association for Computational Linguistics.

[5]
Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett,
Yangfeng Ji, Margaret Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill
Dolan. 2015. A neural network approach to context-sensitive generation
of conversational responses. In NAACL HLT 2015, pages 196–205

[6]
Bowen Wu, Baoxun Wang, and Hui Xue. 2016. Ranking responses oriented to
conversational relevance in chat-bots. In COLING 2016, 26th
International Conference on Computational Linguistics, Proceedings of
the Conference: Technical Papers, December 11-16, 2016, Osaka, Japan,
pages 652–662.

[7] Delphine Bernhard
and Iryna Gurevych, Combining Lexical Semantic Resources with Question
& Answer Archives for Translation-Based Answer Finding

[8]
Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan.
2016a. A diversity-promoting objective function for neural conversation
models. In Proceedings of NAACL-HLT, pages 110–119.

[9]
Jiwei Li, Michel Galley, Chris Brockett, Georgios P. Spithourakis,
Jianfeng Gao, and William B. Dolan. 2016b. A persona-based neural
conversation model. In Proceedings of the 54th Annual Meeting of the
Association for Computational Linguistics, ACL 2016, August 7-12, 2016,
Berlin, Germany.

[10] Xing Chen, Wu
Wei, Wu Yu, Liu Jie, Huang Yalou, Zhou Ming, and Ma Wei-Ying. 2017.
Topic aware neural response generation. In Proceedings of the
Thirty-First AAAI Conference on Artificial Intelligence, February 4-9,
2017, San Francisco, California, USA., pages 3351–3357.

[11]
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David
Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014.
Generative adversarial nets. In Advances in neural information
processing systems, pages 2672–2680.

本文作者:叨叨

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-18 19:02:28

首发!三角兽被 EMNLP 录取论文精华导读:基于对抗学习的生成式对话模型浅说的相关文章

我的软件工程硕士论文题目是基于mvc的erp仓库子系统,论文结构请指教!

问题描述 我的软件工程硕士论文题目是基于mvc的erp仓库子系统,今年年底毕业,论文结构请指教!我软件是用c#,.net编的!用的是sql2000,vs2005但我总觉得不是mvc架构,牛人请指教!还有论文的架构我还没想好,请指教! 解决方案 解决方案二:mvc你只要有view,model,controller就算是了,虽然不好用.解决方案三:那c#里面会有view,model,controller三层吗?解决方案四:不会,不过你可以把asp.net看成是v和c,m你自己实现

【重磅】Hinton大神Capsule论文首次公布,深度学习基石CNN或被取代

Hinton要打造下一代CNN的Capsule细节终于通过一篇论文发布.本文带来详细介绍.此前,Hinton曾讨论了用"capsule"作为下一代CNN的理由.他解释了"标准"的卷积神经网络有什么问题?结构的层次太少,只有神经元.神经网络层.整个神经网络.所以,我们需要把每一层的神经元组合起来,形成一个组,并装到"舱"(capsule)中去,这样一来就能完成大量的内部计算,最终输出一个经过压缩的结果."舱"(capsule)的

PRICAI 2016 论文精选 | 基于多核学习整合文本信息的微博图片情绪分析

近年来,微博已经成为了人们最常用的网络社交工具之一,所以对微博中的信息进行挖掘是非常有价值的.因为图片具有快捷方便的天然属性,只用图片发布微博是一个新的趋势.目前大多数微博的情绪分析研究都聚焦在文本,已经不能适用.利用机器学习技术对图片进行情绪分析是实现高级人机交互的重要部分,对于实现人机交互.人-计算机接口以及智能计算机等有重要意义,这已成为目前模式识别.机器学习和认知科学等研究领域的热门研究课题之一. 标题:基于多核学习整合文本信息的微博图片情绪分析 摘要:微博上,图片是表达用户情绪最重要的

自然语言处理顶级会议 EMNLP 最佳论文出炉,聚焦神经网络 (下载)

2016 年自然语言处理(NLP)领域的顶级会议--自然语言处理实证方法大会(Empirical Methods in Natural Language Processing,EMNLP)将于11月 1 日至 5 日在美国德克萨斯州奥斯汀市举行.今年网上报名时间10月22日截止,因此本届大会参会人数暂时还无法确定.不过,去年和前年的 EMNLP 大会都有来自学术界和产业界上千人的参与. 根据一位评审的Twitter透露,本次 EMNLP 大会共收到来自 50 多个国家和地区近千篇论文投稿(包含无

499元购八核手机Q米2首发三万台被抢空

12月18日,移动电商平台买卖宝推出的全新一代手机--Q米2在买卖宝商城(mmb.cn)首发开售.这款堪称"史上最低价八核智能机"的Q米2凭借强劲的性能和499元的超值低价,仅在开售当天就被粉丝们抢购一空,并创下了3万台的销售记录.Q米2能得到如此的追捧,完全归功于其诱人的性能配置,其搭载了MTK八核1.7GHz的CPU,同时采用了自主研发的QEEKOS全新智能操作系统,经过优化后的系统速度更快.反应也更加灵敏,配以1GBRAM+8GBROM的内存组合,无论是运算速度还是流畅性都无与伦

CVPR2017精彩论文解读:结合序列学习和交叉形态卷积的3D生物医学图像分割

雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是宜远智能的首席科学家刘凯对此次大会收录的<结合序列学习和交叉形态卷积的3D生物医学图像分割>(Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation)一文进行的解读. 3D医学图像的切割的背景 3D医学图像的切割是医学图像处理里一个非常重要的工作,比如脑部MRI数据.肺

求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06

在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词.虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题.  如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步.在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免.近几年深度学习的发展给很多研究问题带

软交换技术论文:论基于软交换的3G与无线局域网的互通

近来年,软交换技术愈来愈成为公众关注的焦点,它将成为下一代网络的核心技术,信息业界经过一翻努力提出了面向下一代IP融合网的软交换技术,目前正积极进行3G核心网技术研究,其最终目标也是具有融合多媒体业务能力的全IP网络. 在这方面,3GPP发挥了很大的作用,提出了软交换技术为基础的IP多媒体子系统(IMS)结构,另外,无线局域网技术的快速发展和价格的大幅下降,使由原来的企业和家庭内部的补充布线方式逐渐发展为越来越重要的公众无线互联方式.3G与无线局域网的互联充分体现了软交换技术在下一代组网技术的优

重要的事情说三遍:英特尔开始发售基于ARM的FPGA(×3)

英特尔已经通过将微型处理器加入到现场可编程门阵列(FPGA)来跟进其所收购公司Altera所走的路数. 这个Stratix 10系列产品实现了英特尔长久以来的愿望--将x86放到FPGA ARM内核变为一个14纳米制程FPGA. 众所周知,英特尔主要靠PC起家,但现在市场接连遭受打击,而这个芯片则是公司向比如HPC和软件定义网络等新兴市场转舵策略的一部分. 英特尔方面称四核64-bit ARM Cortex-A53处理器有助于定位该设备用于"数据中心,网络基础设施,云计算和雷达成像系统范围内的高