【Science】无监督式机器翻译,不需要人类干预和平行文本

因为神经网络,即一种以人脑为启发的计算机算法,自动的语言翻译取得了长足的进步。但是训练这样的网络需要大量的数据:通过数以百万计逐句对应的翻译来展示人类是如何做到这一点的。现在,两篇新的论文表明,神经网络可以在不需要平行文本的情况下学习翻译,这是一个令人惊讶的进步,它将可以让人们可以读懂更多语言的文档。

“想象一下,你给一个人很多中文书籍和大量的阿拉伯语书籍,这些书之间没有重叠,但这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的,对吧?”其中一项研究的第一作者,西班牙圣塞巴斯蒂安巴斯克大学(UPV)计算机科学家Mikel Artetxe说。 “但是,我们证明了,计算机可以做到这一点。”

大多数机器学习(神经网络和其他计算机算法都从经验中学习),是“监督式的”。计算机首先进行猜测,然后接收正确的答案,并相应地调整其处理过程。如果只是在两种常见的语言,比如英语和法语的翻译中使用这一技术,效果还是不错的,因为许多文档都以这两种语言存在。但是,对于罕见的语言或者那些虽然常见,但是缺乏平行语料库的语言来说,它的运行就不是很好。

这两篇论文都已经提交到2018ICLR,但是还没经过同行评议。两篇论文都聚焦另一种方法——无监督式的机器学习。首先,两项研究都分别在没有人类的帮助下构建了双语词典,也就是说,没有人会反馈给机器它们的猜测是否正确。 这是可能的,因为不同语言在词的汇聚方式上有很强的相似性。例如,桌子和椅子这些词在各种语言中都会频繁地出现。因此,如果一台计算机将这些同时发生的事像一个巨大的道路地图集一样汇集起来,统一到“城市”这一词汇下,那么不同语言的地图其实是彼此相似的,只是名称不同而已。然后,计算机可以找出将另一个地图叠加在一起的最佳方式。

于是,你就有了一个双语字典。

这两篇使用非常相似的方法的新论文也可以在句子层面进行翻译。它们都使用两种训练策略,称为反向翻译和去噪(Back translation and Denoising)。在反向翻译中,先把一种语言的句子大致翻译成另一种语言,然后再翻译回原来的语言。如果翻译后的句子与最初的句子不一致,则调整神经网络再次翻译,直到变得越来越接近。

去噪与反向翻译类似,但不是从一种语言到另一种语言然后再回来,而是从一种语言(通过重新排列或删除单词)中添加噪声,并尝试将其翻译回最开始的语言。这些方法的组合,能够教给网络更深层次的语言结构。

但是两种技术之间还是有着细微的差异。 UPV的系统在训练期间更频繁地进行反向翻译。由位于宾夕法尼亚州匹兹堡的 Facebook 计算机科学家Guillaume Lample和合作者创建的另一个系统在翻译过程中则增加了一个额外的步骤。在将一个语言解码为另一种语言之前,这两个系统都将其从一种语言编码为更抽象的表示,但Facebook系统的研究员认为,其系统的“中间语言”是真正抽象的。 Artetxe和Lample都表示,他们可以通过应用对方论文的技巧来改善结果。

两篇论文之间唯一可以直接比较的结果是从以包含了3000万句子的英法文本数据库中进行的翻译,两个系统都在双语评估替补评分(用来衡量翻译的准确性)上的得分都在15分左右 。这个数字还比不上谷歌翻译。谷歌翻译使用有监督的方法,在同类测试上的得分是40多左右,人类水平是50分左右。但是,这些方法都比词对词的翻译要好。

作者说这些系统可以很容易地通过半监督的方式得到改进,也就是在他们的训练中增加几千个平行语料的句子。

除了能够在没有多个平行文本的语言之间进行翻译之外,Artetxe和Lample都表示,如果平行文本都是同一类型,比如新闻报道,那么它们的系统可以帮助像英文和法文这样常见的配对,但是您想要翻译新的领域的文本,像街头俚语或医学术语,“这还在初始期,“Artetxe的合作作者Eneko Agirre说, “我们只是刚刚开辟了一条新的研究方法,所以我们不知道它在哪里前进。”

在北京,微软的计算机科学家Di He说:“即使在没有人类监督的情况下,计算机也可以学会翻译,这让人感到震惊。”Di He自己的工作也都被这两篇论文引用。 Artetxe说,他和Lample的方法在一天之内先后上传到arXiv,这一事实令人惊讶。 “但同时,这也很好。这意味着这个方法真的是朝着正确的方向发展。”

时间: 2024-09-14 04:05:10

【Science】无监督式机器翻译,不需要人类干预和平行文本的相关文章

Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译

Facebook试图将机器翻译的成功扩展到低资源语言对,研究了在没有任何平行数据的情况下,实现无监督的机器翻译.他们提出的模型有效地学习了在不使用任何标记数据的情况下进行翻译. 论文下载链接:https://arxiv.org/pdf/1711.00043.pdf 相信大家都知道,最近在机器翻译领域取得了令人印象深刻的成果,而这主要归功于最近在深度学习方面所取得巨大进步,以及大规模平行语料库(large-scale parallel corpora)的可用性.我们已经进行过无数次尝试,试图将这些

上海科技大学屠可伟团队:小谈无监督依存句法解析

本文作者蒋勇为上海科技大学博士生,师从屠可伟博士.本文为蒋勇接受雷锋网AI科技评论独家约稿撰写的工作介绍,未经许可不得转载. 自然语言总有丰富的内部结构信息,而这些信息一般都是通过解析树(parse tree)来进行表示.一般而言,我们把从一个句子到句法树的这一过程称为句法解析(parsing). 句法解析有很多种形式,最为常用的是基于短语的句法解析(constituency parsing)和依存句法解析(dependency parsing).句法解析作为自然语言处理(NLP)的基础任务之一

2017上半年无监督特征学习研究成果汇总

更多深度文章,请关注:https://yq.aliyun.com/cloud 特征学习在无监督学习方式下的趋势:回归到多元学习的随机目标,利用因果关系来表征视觉特征,以及在强化学习中,通过辅助控制任务增加目标,并通过自发进行预训练.从未标记的数据中学到很多东西,似乎我们只用标签撇去了它的表面. 在这篇文章中,我将向你展示,2017年无监督学习领域发生了什么变化. 无监督学习是机器学习中长期存在的挑战,它被认为是人工智能的重要组成部分.在没有标签的数据中有很多信息,我们并没有完全的使用它,而值得注

Gartner:AlphaGo凸显高级机器学习在监督式学习领域的强大功能

机器学习取得显著进展 虽然机器学习的基本概念由来已久,但如今正变得炙手可热.在斯坦福大学,机器学习是最受欢迎的研究生课程,报读该课程的学生多达760人.此外,全球领先的信息技术研究和顾问公司Gartner的研究显示,高级分析(涵盖机器学习)是业务分析软件市场内增速最快的细分领域. 高级机器学习算法由多种用于无监督与监督式学习的技术构成(如:深度学习.神经网络和自然语言处理等),并基于当前信息而运行.高级机器学习已经从此前提供基于算法的解决方案,向更具洞察力.自我引导与自主化转变.它与万物信息化(

《构建实时机器学习系统》一第2章 实时监督式机器学习 2.1 什么是监督式机器学习

第2章 实时监督式机器学习 2.1 什么是监督式机器学习 监督式机器学习旨在利用训练集数据,建立因变量和自变量之间的函数映射关系.如果用X 代表自变量,Y 代表因变量,f 代表映射函数,b 代表映射函数的参数,那么监督式机器学习的任务就是找到恰当的函数f 和参数 ,让下面的映射尽量符合要求: y=f (x;b,e) 这里e为实际情况中的随机扰动项. 下面就来具体看看在监督式机器学习中,因变量.自变量和预测函数的含义. (1)因变量 因变量是我们试图通过机器学习模型预测的变量,在实际应用中它往往无

OpenAI"巧妙"发现无监督情感神经元,可利用文本检测用户情感

雷锋网(公众号:雷锋网)4月7日消息,OpenAI在官网公布了一项最新的研究成果,介绍了一个可以高效学习情感表征的无监督系统,目前能够预测亚马逊评论中的下一个字符. 研究人员采用了线性模型,在一个小型但是被广泛采用的数据集(Standford Sentiment Treebank)上取得了非常高的情感分析准确度:OpenAI得到的准确度为91.8%,而之前最好的是90.2%.这一表现可以匹敌之前的监督系统,而且少用了30~100倍的标记样本. 此外OpenAI表示,其模型的表征还包含了一个独立的

采用无监督HEBB学习规则与有监督与有监督HEBB学习规则自适应PID控制器比较

问题描述 采用无监督HEBB学习规则与有监督与有监督HEBB学习规则自适应PID控制器比较 大家好,请问大家一个问题使用MATLAB仿真,将采用无监督Hebb学习规则和有监督Hebb学习规的单神经元自适应PID控制进行比,对结果进行分析,较有监督和无监督结果有什么区别,对温度的控制在超调量.精度等方面进行比较.?请教大家了谢谢大家了

PaperWeekly 第十七期 --- 无监督/半监督 NER

引言 命名实体识别是自然语言处理中一个非常基础的工作,是自然语言处理中关键的一个环节.监督学习是解决命名实体识别任务的一个基本手段,但标注数据的获取成本往往会比较高,本期PaperWeekly将带大家来看一下如何通过半监督或者无监督的方法来做命名实体识别任务.本期分享的4篇Paper Notes分别是: 1.Building a Fine-Grained Entity Typing System Overnight for a New X (X = Language, Domain, Genre

《构建实时机器学习系统》一2.2 怎样衡量监督式机器学习模型

2.2 怎样衡量监督式机器学习模型 本章前面对一个好的实时机器学习模型的衡量只提到了"优秀" "合适"这样的字眼,本节将会详细展开,讨论监督式实时机器学习模型的衡量标准. 在实际应用中,监督式实时机器学习效果的好坏可以分为统计量是否优秀和应用业绩是否优秀两个方面.下面将按照这两部分分别进行介绍. 在讨论技术细节之前,先进行一下符号的定义: 给定 n 组已知的自变量和因变量{(Yi, Xi)}ni=1作为测试数据集,对于任意i,我们通过自变量Xi和模型f(Xi; b)