斯坦福大学 NLP 组开放神经机器翻译代码库

近日,斯坦福大学自然语言处理组(Stanford NLP)发布了一篇文章,总结了该研究组在神经机器翻译(NMT)上的研究信息。在这篇文章中,他们还放出了在多种翻译任务上(比如英德翻译和英语-捷克语翻译)实现了当前最佳结果的代码库(codebase)。除此之外,「为了鼓励再现和增加透明」,他们还放出了他们用于训练模型的处理过的数据以及可以通过他们的代码库使用的预训练好的模型。

参与成员:

Christopher D. Manning(斯坦福大学计算机科学和语言学教授)

Minh-Thang Luong(斯坦福博士,Google Brain 研究科学家)

Abigail See(斯坦福大学计算机科学在读博士)

Hieu Pham

代码库

对于混合 NMT(hybrid NMT),请使用这个代码库并且引用:

代码库:https://github.com/lmthang/nmt.hybrid

论文:使用混合词-字符模型实现开放词汇神经机器翻译(Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models)

摘要:几乎之前所有的神经机器翻译(NMT)使用的词汇都受限,随后可能用一个方法来修补未知的单词。本论文展示了一个全新的能实现开放词汇神经机器翻译(open vocabulary NMT)的词-字符解决方法。我们建立了一个混合的系统,能够实现大部分的词级(word level)翻译,并可查阅罕见词的字母组成。我们字符级的循环神经网络能计算源词的表征,并能在需要时恢复未知的目标词。这种混合的方法还有一个双重优点是,与基于字符的网络相比,它更快且更容易训练;同时,它不像基于词的模型那样会产生未知的词。在 WMT' 15 英语-捷克语的翻译任务上,这种混合方法还实现了一个额外的+ 2.1 BLEU 分的提升——超过已经能处理未知单词的模型 11.4 BLEU 分。我们的最佳系统在这个任务上达到了新的最佳表现:20.7 BLEU 分。我们证明了我们的字符模型不仅能成功地学习生成形式很好的捷克语词(这是一种词汇复杂高度屈折的语言),还能为英语源词建立了正确的表征。

对于通用的基于注意的 NMT(general attention-based NMT),请引用以下论文:

代码库:https://github.com/lmthang/nmt.hybrid

论文:实现基于注意的神经机器翻译的有效方法(Effective Approaches to Attention-based Neural Machine Translation)

摘要:最近一种在翻译过程中通过选择性地集中关注部分源句子的注意机制被用于提升神经机器翻译(NMT)结果。然而,探索用于基于注意的神经机器翻译(NMT)的有用架构的研究还不多。本论文探讨了两种简单有效的注意机制类别:一种能顾及到所有源词的全局方法,以及一种只能一次查看源词的一个子集的局部方法。我们证明了在英语-德语/德语-英语 WMT 翻译任务上,这两种方法都是有效的。使用局部注意方法,相比于已经结合了 dropout 等技术的非注意系统,我们的系统增长了 5.0 BLEU 点。我们的组合模型使用了不同的注意架构,在 WNT'15 英语-德语的翻译任务中,实现了目前最好的结果:25.9 BLEU 点;比现有的基于 NMT 和 一个 n-gram reranker 的最佳系统提升了 1.0 BLEU 点。

对于剪枝 NMT(pruning NMT),请引用以下论文(如果你对代码有兴趣,请联系我们):

论文:通过剪枝的神经机器翻译的压缩(Compression of Neural Machine Translation Models via Pruning)

摘要:和其它许多深度学习领域一样,神经机器翻译(NMT)常会遭遇过度参数化(over-parameterization)的问题,这会导致需要大量的存储空间。这篇论文检查了三种简单的基于幅度的(magnitude-based)用来压缩 NMT 模型的剪枝方案,即 class-blind、class-uniform 和 class-distribution;它们的不同之处在于剪枝的阈值为 NMT 架构中不同的权重类所计算的方式。我们表明权重剪枝(weight pruning)可作为一种用于当前最佳 NMT 压缩技术。我们表明一个带有超过 2 亿个参数的 NMT 模型可以在仅有非常少量的性能损失的情况下被剪去 40%——这个结果是在 WMT'14 英语-德语翻译任务上得到的。这揭示了 NMT 架构中的冗余的分布。我们的主要结果是:通过再训练(retraining),我们可以使用 80% 剪枝的模型来恢复甚至超越原有的表现。

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-08-01 10:45:23

斯坦福大学 NLP 组开放神经机器翻译代码库的相关文章

哈佛神经机器翻译系统 OpenNMT 更新等 | AI 开发者头条

▲ 内容预览: 哈佛大学神经机器翻译系统 OpenNMT 新版本发布 癌症检测突破!谷歌深度学习算法的乳腺癌检测准确率超病理科大夫 两大 AI 平台联手!IBM Watson 与 Salesforce"爱因斯坦"进行对接 布朗大学人机交互新算法,让 AI 学会提问 每日推荐阅读 博弈论与深度学习 █  哈佛大学神经机器翻译系统 OpenNMT 新版本发布 OpenNMT 是哈佛大学 NLP 研究小组去年年底开源的产品级翻译工具,基于 Torch/Pytorch,一经发布便被谷歌采用,是

【深度】AI 入侵翻译,神经机器翻译进化让巴别塔7年内成真

"从事翻译的人很可能会看到一些工作机会在不断消失,他们必须要习惯一种'创业思维'." 5月27日,中国围棋大师柯洁在与AlphaGo的围棋对决中输掉最后一盘,0:3输掉全部比赛.当下,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重.现在,谷歌等公司向全世界提供免费的翻译服务,并且,已经可以提供"可理解"的翻译结果. 牛津大学最近完成了一项对机器学习研究人员的大型调查,调查内容是他们对 AI 进展的看法.综合这些研究人员的预测,

重磅启动!翻译斯坦福大学课程:深度学习与自然语言处理

像追美剧一样追课程! 大数据文摘已获得斯坦福大学深度学习课程CS224d的翻译授权,重磅启动"斯坦福深度学习课程CS224d"的翻译工程,所有译文将会免费发布,计划每周发布1篇.期待你的加入,加入要求见文末,报名请点击文末"阅读原文". 大数据文摘作品,转载需授权 作者|寒小阳 && 龙心尘 感谢@Fantzy同学的帮助  大数据文摘"机器学习"专栏介绍 本文为大数据文摘机器专栏推出的[数据科学/机器学习]学习分享项目启动篇,我们

阿里云PAI将神经机器翻译训练效率提升5倍

近两年,神经机器翻译(NMT: Neural Machine Translation)技术异军突起,翻译质量取得大幅提升.但不幸的是,NMT 系统的训练成本非常高,限制了这一技术的大范围使用. 阿里翻译团队通过使用阿里云机器学习平台PAI实现了模型训练效率5倍的飞跃,并已应用在英俄电商翻译质量优化项目中. 1,什么是NMT NMT一词的出现要追溯到2014年9月1号,加拿大蒙特利尔大学Bengio教授研究组在开放论文网站arxiv上发布了他们最新的研究成果『neural machine tran

斯坦福大学邢磊演讲干货:深度学习在放疗中的应用

作为医学影像方面的技术专家和实战专家,斯坦福大学医学物理中心主任.汇医慧影首席科学家邢磊教授近日连续受邀参加国内外放射放疗学术会议,包括2017美国医学物理年会(AAPM), 成都图像计算与数字医学国际研讨会, 第一界人工智能在医学中的应用峰会, 美国放射肿瘤学会(ASTRO)年会, 以及由北京医师协会放射专科医师分会等.近年来AI技术被广泛讨论. 如何将AI融合临床,如何帮助影像医生释放更多价值,如何从影像诊断为切入点,用AI来深入肿瘤治疗全链条,也是当前热门话题,这是一场数据和算法的博弈,更

F8 2017 | 技术负责人为你解析 Facebook 神经机器翻译

该讲座主题为 Facebook 机器翻译的两代架构以及技术挑战. 雷锋网消息:在昨日的 F8 会场,该讲座吸引了众多开发者到场,主讲者是 Facebook 语言翻译部门技术负责人 Necip Fazil Ayan. Necip Fazil Ayan 首先介绍了 Facebook 翻译业务的使命和愿景,以及对机器翻译的应用. 使命与愿景 Necip Fazil Ayan:Facebook 希望推动建立一个真正的全球社区,即"连接世界":每个人都能与全世界任意国家的人.任意语言内容自如交互

用PyTorch还是TensorFlow?斯坦福大学CS博士生带来全面解答

关于深度学习的框架之争一直没有停止过.PyTorch,TensorFlow,Caffe还是Keras ?近日, 斯坦福大学计算机科学博士生Awni Hannun就发表了一篇文章,对比当前两个主流框架PyTorch和TensorFlow. 雷锋网 AI 科技评论编译如下: 这篇指南是我目前发现的PyTorch和TensorFlow之间的主要差异.写这篇文章的目的是想帮助那些想要开始新项目或者转换深度学习框架的人进行选择.文中重点考虑训练和部署深度学习堆栈组件时框架的可编程性和灵活性.我不会权衡速度

机器人领域开拓者:斯坦福大学机器人实验室Oussama Khatib教授 | GAIR 2017

由中国计算机学会(CCF)主办.雷锋网与香港中文大学(深圳)全程承办的 AI 盛会 --「全球人工智能与机器人峰会」(CCF-GAIR),将于 7.7-7.9 日在深圳召开. CCF-GAIR 为国内外学术.业界专家提供一个广阔交流的平台,既在宏观上把握全球人工智能趋势脉搏,也深入探讨人工智能在每一个垂直领域的应用实践细节. 延续上一次大会的顶级嘉宾阵容,本次 CCF-GAIR 2017 将会迎来更多人工智能和机器人行业重磅专家.在未来的一段日子里,雷锋网将陆续放出嘉宾介绍.今天要介绍的是斯坦福

斯坦福大学联合谷歌建史上最大人造神经网络

催生了谷歌眼镜项目的研发部门 Google [X] 和http://www.aliyun.com/zixun/aggregation/13438.html">斯坦福大学的研究人员一起在去年夏天建立起了世界上最大的人造神经网络系统,欲以模拟真人的大脑.执掌斯坦福人工智能实验室的Andrew Ng,曾经也是Google神经网络探寻计划里的一员,现在将此计划更向前推进了一步.他和他的团队已经建立起了另一个人造神经网络,打破Google 所创下的纪录,在规模上比之大上六倍有余. 人造神经网络可以以