求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06

在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词。虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题。 

如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步。在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免。近几年深度学习的发展给很多研究问题带来了全新的解决方案。在中文分词上,基于神经网络的方法,往往使用“字向量 + 双向 LSTM + CRF”模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量将到最低,如下图所示,其中: 

  • 字向量层(对应 Embedding Layer)能够把离散的汉字符号转化为连续的向量表示 
  • 双向 LSTM 网络(对应 Feature Layer)能够在考虑时序依赖关系的同时抽取有用的文本特征 
  • 最后的 CRF 模型(对应 Inference Layer)则建模了两个相邻输出的概率制约关系 强大的样本表示、特征抽取和概率建模能力,使它成为如今最主流的中文分词模型。

▲ 图 1:分词模型

除了模型和算法,中文分词准确率的提高更得益于丰富的公开训练语料集。然而,因为中文分词这个问题本身并不存在一个完全统一的标准,众多语料集之间都或多或少存在不一致的地方。由于语言学家定义了分词的多种不同标准,因此对于同一串汉字,不同的人可能会给出不同的切分结果。比如“姚明进入总决赛”这句话,在 CTB 和 PKU 两个语料集中就是不同的切分标准,前者认为“姚明”和“总决赛”是一个整体,后者却认为姓和名应该分开、“总”和“决赛”应该分开:

▲ 图 2:语料不一致

中文分语料丰富,每一份中文分词语料都是经过昂贵而耗时的人工标注得到的。又因为每份语料间的标准多少有些不一致,因而以往在训练一个分词模型的时候只会用一份语料,而置其他语料于不顾,这无疑是浪费,弃之可惜。所以现在一些研究者就在思考怎么同时利用多个语料集。如果能够想办法利用多个分词标准语料集的信息,就能让模型在更大规模的数据上训练,从而提升各个分词标准下分词的准确率。最近,来自复旦大学的陈新驰同学、施展同学、邱锡鹏老师和黄萱菁老师就提出了一个新框架,可以利用多标准的中文分词语料进行训练。实验在 8 个语料集上进行训练,并在 8 份语料上都提升了准确率。他们的论文 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 发表在今年的 ACL2017 上。值得一提的是,这四位作者中的陈新驰同学、邱锡鹏老师、黄萱菁老师同时也是上述“字向量+双向 LSTM+CRF”中文分词模型最初原型的提出者。

接下来我们就来一步步走近这个框架。首先,在多份语料上训练可以看成一个多任务学习(Multi-task Learning)问题,在 8 份语料上的模型训练就是 8 个任务。这些任务之间显然存在着很大的共性,所以可以设想用单独一个“字向量 + 双向 LSTM + CRF”模型来训练,但是如前所述,这些任务之间存在不一致,所以又必须考虑用一部分模块来建模它们之间的差异部分。论文中具体采取的方案是再拿出 8 个特定于具体任务的私有 LSTM 模块,跟原来共享的 LSTM 网络模块一同构成图 1 中的特征抽取层,变成如图 3 所示的结构。在图 3 中,两个灰色的私有 LSTM 模块分别负责捕捉 TaskA 和 TaskB 的任务私有特征,中间黄色的共享 LSTM 模块负责捕捉任务共享特征,然后再把私有特征与共享特征拼接到一起,输入每个任务私有的 CRF 模块。整个框架总共有:

  • 1 个共享的字向量模块 
  • 1 个共享的 LSTM 模块 
  • 8 个私有的 LSTM 模块 
  • 8 个私有的 CRF 模块

▲ 图 3:多任务框架

在尝试用以上多任务框架进行训练后,作者发现有 7 个语料上的分词准确率确实得到了提升,但是 MSRA 语料的准确率下降。为什么呢?作者分析认为这可能是由于共享 LSTM 模块所捕捉的特征并不“纯净”,里面可能混入了某个任务的私有特征,这些特征对 MSRA 语料没有用,甚至可能反倒有害,才导致其准确率下降。

根据上述假设,我们似乎应该想办法把私有特征从共享的 LSTM 模块中“剥离”出去,保证该模块仅仅抽取对所有语料都有用的特征,而论文作者就非常巧妙地利用了对抗网络来达到这个目的。

论文在上述多任务框架的基础应用对抗网络,提出了如下图所示的对抗多任务框架,它与之前框架的区别在于多了一个判别器(Discriminator)网络模块,负责检查共享特征中是否不小心混入了特定于某个任务的特征。

▲ 图 4:对抗多任务框架

具体来说,每当一个样本经过字向量层、共享 LSTM 层之后,我们会得到一个特征向量序列,该序列的长度与输入样本的字符长度相等。为了检查这些特征向量是否“纯净”,我们对它们求平均,得到一个固定长度的特征向量,再输入判别器网络模块,要求判别器预测该特征向量来源于 8 个语料中的哪一个。这是我们给判别器设定的目标。

假如判别器能够准确预测每一个共享特征向量的来源语料,则说明这些共享特征中混入了太多私有信息,这是我们不希望发生的事情。所以我们反过来给共享 LSTM 模块设定一个目标,让它跟判别器对抗,想办法让判别器预测不准。假如共享 LSTM 模块成功让判别器分不清特征向量来自哪个语料,意味着我们已经把私有特征剥离出去了,从而保证了共享特征向量的纯净性。

引入了上述对抗训练目标之后,新的对抗多任务框架在 8 个语料上都获得了准确率的提升。

回过头来看,这样神奇的结果似乎又很符合直觉。作者借鉴了多任务学习的思想,融合多个语料的数据来提升共享字向量模块、共享 LSTM 模块的泛化性能,又让多个私有 LSTM 模块、私有 CRF 模块分别负责各个语料之间标准不一致之处,还巧妙地利用了对抗网络把私有信息从共享模块中剥离到各个私有模块中去,既能充分享受到数据量增大带来的好处,又避免了不同语料之间相互掣肘,做到了“求同存异,共创双赢”。笔者相信这篇论文提出的对抗多任务框架不仅对中文分词有好处,也能够用在很多其他问题上,具有相当的普适应用价值。

来源:paperweekly

原文链接

时间: 2024-08-20 02:31:28

求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06的相关文章

中俄动漫游戏将携手共创双赢

有记者报道:"中国网络游戏2009年对俄罗斯的出口额是919.3万美元,截至今年上半年累计达2206.32万美元."日前在莫斯科中央美术宫举行的中国动漫游戏展上,文化部文化产业司动漫处处长宋奇慧向记者透露了这组可喜的数字. 中国动漫游戏展是2010年俄罗斯"中国文化节"的重头戏,也是中国政府首次在俄罗斯举办的动漫游戏类展览.为配合此次展览,9月4日,文化部外联局.文化产业司在莫斯科中央美术宫音乐厅举办了"中国文化节"动漫游戏研讨会,中国的动漫游戏

中俄动漫游戏合作潜力巨大将携手共创双赢

有记者报道:"中国网络游戏2009年对俄罗斯的出口额是919.3万美元,截至今年上半年累计达2206.32万美元."日前在莫斯科中央美术宫举行的中国动漫游戏展上,文化部文化产业司动漫处处长宋奇慧向记者透露了这组可喜的数字. 中国动漫游戏展是2010年俄罗斯"中国文化节"的重头戏,也是中国政府首次在俄罗斯举办的动漫游戏类展览.为配合此次展览,9月4日,文化部外联局.文化产业司在莫斯科中央美术宫音乐厅举办了"中国文化节"动漫游戏研讨会,中国的动漫游戏

范丽青盼两岸互联网发展论坛为两岸搭桥共创双赢

硅谷网7月17日消息 据国内调查国家互联网时代建构两岸未来网路联结新形态,200 多名两岸互联网业者16日上午出席在台大医院国际会议厅 举行的"2012两岸http://www.aliyun.com/zixun/aggregation/6298.html">互联网发展论坛".大陆国台办发言人范丽青以中国互联网协会副主委的身份低调参与论坛,她在致词时表示,希望 透过这个平台,共创双赢互谋利益. 硅谷网报道,论坛由中国台湾网.中国互联网协会.台北市电脑公会.今日新闻网主办.

麻球游戏联盟产品见面会 邀约站长共创双赢未来

中介交易 SEO诊断 淘宝客 云主机 技术大厅 2011年3月12日,不仅仅是我国第33个植树节,更将是"麻球游戏联盟"产品发布会的日子."麻球游戏联盟"是麻球游戏面向全国各中小网站主推的海量小游戏集合. 麻球游戏是全球知名的在线小游戏品牌.麻球游戏致力于通过扶植小游戏开发者,发布顶尖的Flash游戏,采用IGA游戏内置广告的成功商业模式,为各网站提供优质小游戏内容的小游戏发行商.运营商和内容服务商.目前在全球拥有逾2亿个活跃用户,逾4万款授权小游戏,与全球48个国

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07

本期论文访谈间我们将以"川普百科信息抽取"为例,来向大家介绍来自中科院自动化研究所的郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师的相关工作.他们的论文"Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme"发表在今年的 ACL 2017 上,并被评为 ACL 2017 杰出论文. 实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两

跨语言之间的对抗博弈,该如何演绎?| 论文访谈间 #08

利用非平行双语语料构建双语词典是一项长期存在的跨语言任务.其实现过程一般需要跨语言信息(如种子双语词典)作为监督信号来建立双语词汇之间的翻译关系,但对于完全缺乏双语资源的小语种和专门领域来说,获取其跨语言信息十分困难,那么如何在不使用任何跨语言监督信号的情况下通过无监督方法构建双语词典呢?来自清华大学的张檬博士.刘洋老师.栾焕博老师和孙茂松老师发表在 ACL2017 上的论文"Adversarial Training for Unsupervised Bilingual Lexicon Indu

让问答更自然 - 基于拷贝和检索机制的自然答案生成系统研究 | 论文访谈间 #02

让机器像人类一样拥有智能是研究人员一直以来的奋斗目标.由于智能的概念难以确切定义,图灵提出了著名的图灵测试(Turning Test):如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能.图灵测试一直以来都被作为检验人工智能的象征.问答系统本身就是图灵测试的场景,如果我们有了和人一样的智能问答系统,那么就相当于通过了图灵测试,因此问答系统的研究始终受到很大的关注. 传统知识问答都是针对用户(使用自然语言)提出的问句,提供精确的答案实体,例如:对于问句"泰戈尔的出生地在

(转) 简述生成式对抗网络

  简述生成式对抗网络 [转载请注明出处]chenrudan.github.io 本文主要阐述了对生成式对抗网络的理解,首先谈到了什么是对抗样本,以及它与对抗网络的关系,然后解释了对抗网络的每个组成部分,再结合算法流程和代码实现来解释具体是如何实现并执行这个算法的,最后给出一个基于对抗网络改写的去噪网络运行的结果,效果虽然挺差的,但是有些地方还是挺有意思的. 1. 对抗样本 2. 生成式对抗网络GAN 3. 代码解释 4. 运行实例 5. 小结 6. 引用 1. 对抗样本(adversarial

深入NLP———看中文分词如何影响你的生活点滴 | 硬创公开课

中文分词是中文自然语言处理的一个非常重要的组成部分,在学界和工业界都有比较长时间的研究历史,也有一些比较成熟的解决方案.今天我们邀请了出门问问的两位重磅嘉宾徐博士和Jason,和大家一起来回顾一下中文分词的发展,着重谈一谈现在比较流行的一些基于机器学习的分词方法. 嘉宾简介 徐博士,约翰霍普金斯大学语言和语音实验室博士.2012年毕业后加入微软总部,先后在Bing和微软研究院从事自然语言处理和机器学习相关的研究和产品开发,是cortana语义理解和对话系统团队以及wordflow输入法团队的主要