阿里云PAI将神经机器翻译训练效率提升5倍

近两年,神经机器翻译(NMT: Neural Machine Translation)技术异军突起,翻译质量取得大幅提升。但不幸的是,NMT 系统的训练成本非常高,限制了这一技术的大范围使用。

阿里翻译团队通过使用阿里云机器学习平台PAI实现了模型训练效率5倍的飞跃,并已应用在英俄电商翻译质量优化项目中。

1,什么是NMT

NMT一词的出现要追溯到2014年9月1号,加拿大蒙特利尔大学Bengio教授研究组在开放论文网站arxiv上发布了他们最新的研究成果『neural machine translation by jointly learning to align and translate』,NMT进入了人们的视野。

他们设计了一组神经网络,使用一个编码器将源语言句子编码为一个向量,然后使用一个解码器对该向量进行解码,产生译文。同时,引入了注意力机制进一步提高译文质量。

2,阿里翻译如何使用PAI

在阿里巴巴内部,阿里翻译负责为1688国际站、全球速卖通等提供多语言服务,中国卖家填写的一些中文信息会被机器自动翻译成多国语言。该团队同时还为钉钉、东南亚电商Lazada等提供服务。

去年,他们首次将NMT技术应用在通讯场景下。虽然翻译质量取得很大的提升,但模型训练耗时太长。3000万的训练数据在单块GPU卡上一般需要训练20天以上,才能得到一个初步可用的模型。

之后,他们尝试在阿里云机器学习平台PAI上开发支持分布式训练的NMT系统,并于3月底完成了第一个版本。在英俄电商翻译质量优化项目中,分布式NMT系统大大提高了训练速度,使模型训练时间从20天缩短到了4天。


图:使用不同卡数时,在中英100万训练语料上获得的收敛加速比

现在,阿里翻译团队还在破解线上服务处理延时的难题,为神经网络机器翻译模型的大规模应用扫除最后障碍。

3,PAI是什么

PAI是阿里巴巴“NASA”计划发布的首个重磅工具,可完全兼容全球主流的深度学习开源框架。同时,底层提供强大的云端异构计算资源,包含CPU、GPU、FPGA。在GPU方面,可灵活实现多卡调度。

在阿里巴巴内部,PAI已经被广泛使用。淘宝搜索使用PAI的参数服务器,可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破规模瓶颈。最终实现搜索结果基于商品和用户的特征进行排序。

在过去的一年时间里,阿里云协助客户落地了多项重大的人工智能应用。但人工智能要想真正成为成为普惠技术,需要一件人人可用的生产工具。PAI正是为此而生。

原文链接

时间: 2024-10-27 23:59:40

阿里云PAI将神经机器翻译训练效率提升5倍的相关文章

阿里云SSD云盘第二轮公测 性能提升20倍

本文讲的是阿里云SSD云盘第二轮公测 性能提升20倍6月9日,阿里云开启了"大杀器"SSD云盘的第二轮公测,其IOPS提升到了20000,是当前云盘性能的20倍.同时,盘内数据全部实时落盘,可靠性9个9.尤其适合中大型关系数据库.核心业务系统以及中大型开发测试环境使用.SSD云盘已在杭州地域公测,公测期至7月15日免费使用. IOPS(Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一,一个普通的7200转的家用磁盘的IOPS

阿里云推新一代ECS实例N5 性能提升60%

2月20日,阿里云宣布云服务器ECS实例新成员--N5规格族启动公测.这是一款各行各业都可以采用的通用型实例,基于阿里定制版英特尔Xeon Skylake 处理器,以及阿里云对软硬件的深度优化,新产品单实例性能上限提升了60%. 这也是英特尔Xeon Skylake 处理器在中国云计算行业的首发. "我们与各大厂商一起,采用最新技术,并进行深度优化,以此为用户带来领先的产品体验和价格优势."阿里云资深总监李津解读,云计算用户将从N5规格族中获得摩尔定律的技术红利. 在ECS实例中,N5

阿里天蝎计划 服务器部署效率提升10倍

本文讲的是阿里天蝎计划 服务器部署效率提升10倍 7月16日,由阿里巴巴自主研发的整机柜服务器解决方案(AliRack),在中国可信云大会上首次亮相.基于天蝎技术规范的AliRack产品已规模化应用于阿里巴巴的数据中心,对比传统方式,服务器部署效率提升10倍,总体拥有成本(TCO)降低5%,预计进一步优化可降低10%,且更加绿色节能. ▲AliRack正面侧视图 这是神秘的"天蝎计划"首次公布项目成果,标志着我国自建大型数据中心技术迈入新的发展阶段,也向业界证明了中国互联网企业的创新实

“私有云”为我所用 内蒙古移动让运维效率提升9倍

云计算是未来IT技术的重要趋势之一,众多互联网公司的成功实践证明,云计算模式能够快速响应市场需求,带来巨大收益.内蒙古移动审时度势,为了进一步探索"IT集中化"."云计算"命题,提高资源池对各IT支撑系统的承载能力,早于2014年就着手建设了企业级的私有云资源池系统. 日前,内蒙古移动又借其日益成熟的"云计算"技术,对资源池系统的IT基础架构进行整合,建设了云化IT资源全流程运营管理平台,真正实现了资源申请.审批.发放.回收全流程的运营管理.该平

阿里巴巴揭秘“天蝎计划”效率提升10倍

7月16日,由阿里巴巴http://www.aliyun.com/zixun/aggregation/18870.html">自主研发的整机柜服务器解决方案(AliRack),在中国可信云大会上首次亮相.基于天蝎技术规范的AliRack产品已规模化应用于阿里巴巴的数据中心,对比传统方式,服务器部署效率提升10倍,总体拥有成本(TCO)降低5%,预计进一步优化可降低10%,且更加绿色节能. 这是神秘的"天蝎计划"首次公布项目成果,标志着我国自建大型数据中心技术迈入新的发展

效率提升十倍!浪潮推出针对Https的SSL解决方案

近年来互联网上的安全事故频发,因此行业内开始了新的一轮对互联网安全的大讨论.其中已经有20多年历史的Http协议备受争议,由于其采用明文传输,让黑客有了可乘之机.但是其"安全版本"Https处理效率慢导致的访问延时则成为阻碍其推广的一大瓶颈.近期,浪潮推出了针对Https的SSL加解密加速解决方案,使Https加解密效率提升十倍以上,保障访问安全的同时,不会影响网站访问的效率,为打造更安全的网络环境奠定基础.   有天,小A接到用户的反馈,说是在其官网下载的游戏是另家公司的产品.当时小

唯快不破!看阿里云效平台如何为互联网企业提升研发效能

天下武功,唯快不破!在瞬息万变的DT时代,互联网企业如何提升研发效能,实现快速持续的交付?答案就是阿里云效平台. 云栖大会上,云效平台被强力围观 何谓云效平台? DT时代,企业业务全面互联网化,相应的应用产品也越来越多,而传统研发模式.产品发布流程已成为企业快速升级的绊脚石,提升技术研发能力以及产品迭代能力已刻不容缓. 为解决业务发展快.系统复杂.开发协同难.开发测试比高等问题.2012年3月,阿里巴巴B2B质量保证部孵化出云效平台.它是业内领先的面向企业的一站式研发效能平台,以提升研发效能为目

枯燥工作游戏化,效率提升3000倍

导读:工作游戏化.众包方式的设计,原来需要10年才能收集的数据量,现如今,只要1天,效率提升3000多倍! 根据美国心理学协会出版的一篇文章,有这样一款节奏快速的游戏应用软件以创纪录的速度为研究人员提供了数十亿项数据,游戏中玩家扮演机场安检人员操作X光扫描仪筛查旅客的行李箱包. 这是一份发表于美国心理学会期刊<实验心理学:人类知觉与绩效>Experimental Psychology: Human Perception and Performance的报告,其主要合著者杜克大学史提芬R.米特罗

讯鸟云应用,帮助金融行业人均产值提升2倍

2013中国呼叫中心及企业通信大会于近日在北京隆重 举行,此次大会的主题是"技术和商业模式驱动下的行业新格局", 重点探讨在中国呼叫中心及企业通信市场风起云涌的情况下,云计算.社交媒体与应用.移动互联网.虚拟化和BYOD等技术带来的全新变化.国内领先的呼叫中心及云计算http://www.aliyun.com/zixun/aggregation/15818.html">应用服务商--北京讯鸟软件有限公司(www.infobird.com)受邀亮相本次大会,展示其旨在提升