马云爸爸“翻译情未了”? 回顾阿里翻译平台的进击之路!

雷锋网AI科技评论按:在百度翻译,谷歌翻译几乎要霸占整个机器翻译市场时,阿里翻译宣布已成功研发阿里云PAI工具,基于阿里云PAI可以将神经网络翻译训练效率提升5倍,这将大大加速阿里翻译平台的建设。希望阿里翻译以后也能走进我们的生活中。

众所周知,马云爸爸在创立阿里之前是做翻译服务及开翻译公司的。随着近几年阿里的业务不断扩大,全球化战略进程加速,语言问题也成了最基础的需求之一,尤其是跨境电商交易对多语言翻译需求尤甚。此前阿里在语言服务上做过不少努力,包括收购国内最大的人工翻译平台,但这远远不能满足阿里平台上亿级别客户的需求。正当阿里为此感到苦闷时,谷歌的神经网络翻译技术出现了,可以说是为阿里的翻译平台插上了一对翅膀。

早在2015年6月份,阿里就已收购国内最大的众包翻译平台——365翻译。当时把阿里翻译平台定位为阿里巴巴的语言服务平台,将瞄准人机结合模式,在语言服务领域进行更多创新。365翻译的加入确实为阿里的跨境电商领域分担了一些翻译业务上的压力。并且在机器翻译领域,和电商相关的几个主要语种中,其翻译的准确率基本和谷歌翻译持平。然而,阿里语言服务平台的野心并不止于此。他们想借助强大的人工翻译团队和电商大数据研发下一代基于神经网络技术的翻译平台。

神经网络翻译技术是一种用于自动翻译的端到端的学习方法,该方法能够克服传统的基于短语的翻译系统的缺点,可以将整个输入句子视作翻译的基本单元。从2016年以来的学术界顶级会议上,几乎全是围绕NMT相关的创新工作,之后谷歌、微软等巨头公司相继发布NMT系统。

阿里翻译团队也紧紧抓住这一机会于2016年10月起正式开始自主研发NMT模型,2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部评测中并取得了不错的成绩,翻译质量有了大幅度提升。

但是,由于NMT(神经网络机器翻译)模型的结构复杂,且深度神经网络模型本身的训练过程一般又会涉及很大量的计算,因此NMT系统往往需要较长的训练周期,例如,使用3000万的训练数据在单块GPU卡上一般需要训练20天以上,才能得到一个初步可用的模型。

基于上述问题,2017年2月初开始,阿里翻译团队和阿里云Large Scale Learning(大规模学习)的穆琢团队合作,共同开发支持分布式训练的NMT系统,并于2017年3月底完成了第一个版本的分布式NMT系统。

在2017年4月份的英俄电商翻译质量优化项目中,分布式NMT系统大大提高了训练速度,使模型训练时间从20天缩短到了4天,为项目整体迭代和推进节省了很多时间成本。

图:使用不同卡数时,在中英100万训练语料上获得的收敛加速比

PAI是阿里推出全球化战略“NASA”计划后发布的首个重磅工具,可以完全兼容全球主流的深度学习开源框架。同时,底层提供强大的云端异构计算资源,包含CPU、GPU、FPGA。在GPU方面,可灵活实现多卡调度。

除了基于MA的分布式实现,增加GPU卡的数量,有不同的收敛加速比以外,阿里翻译项目组还尝试了其他多种分布式实现方法,也都获得了不同程度的加速效果,包括Downpour
SGD、AllReduce SGD以及使用了BMUF(Blockwise Model-Update Filtering, 一种针对Model
Average方法的改进方案)策略的Model
Average方法。下图中显示,在硬件条件相同,BMUF的收敛效果要比MA(黄色柱状)分布式要好。

阿里方面还表示:上一阶段工作主要集中在模型训练阶段的加速策略上,接下来的工作主要分为两方面:一方面是继续挖掘分布式训练的加速潜力,通过系统与算法相结合的优化策略,最大化利用硬件资源,提升收敛加速比,并将分布式优化策略和算法模型本身解耦,实现复杂深度学习模型分布式加速功能的组件化和通用化。

另一方面,需要在现有的服务化方案的基础上,进一步通过模型精度压缩、网络结构简化等方式,在保证模型效果的同时,提高解码速度,降低线上延时,进而增强线上服务能力,节约服务化所需的硬件成本。

阿里云PAI工具使阿里翻译平台的神经网络翻译训练效率提升5倍,确实非常厉害。这将大大加速阿里翻译平台建设之路。正当雷锋网(公众号:雷锋网)编辑想对阿里的翻译质量来一个评测对比,点击阿里翻译平台官网:www.alifanyi.com 却发现功能还未对外开放。

后来雷锋网了解到:阿里翻译团队还在破解线上服务处理延时的难题,平台目前还在内测阶段。不过雷锋网编辑还是发现了一个能使用阿里翻译界面的网站。现在就来对百度翻译,谷歌翻译,阿里翻译做一个简单的汉译英测试。

百度翻译:

谷歌翻译:

阿里翻译:

为了能使阿里翻译体现出自己拥有电商大数据的优势,特别选了一句跨境电商领域的句子:自有产品,经营主体自行生产或自有品牌的产品,以及外部采购以自己名义进行销售的产品。从翻译结果对比来看,阿里翻译似乎比百度和谷歌的翻译好一点。接下里进行第二项测试,英译汉测试:

百度翻译

谷歌翻译

阿里翻译

这次阿里翻译似乎表现的不太好,表现最好的是百度翻译。不过从一些关键词的翻译还是能体现出阿里翻译的特色,比如:jurisdiction,翻译为“法域”;buyer和seller翻译为买家和卖家。可以猜测阿里翻译在跨境电商等类似的特定场景下会表现的更好。总的来说,阿里翻译的汉译英表现还不错,但在英译汉的情况下表现的没有谷歌翻译和百度翻译好。

阿里翻译现在还没上线,但凭借自己拥有海量的电商跨境交易数据和强大的365人工翻译团队,再加上阿里云PAI工具对神经网路翻译训练效率的提升,相信不久后阿里翻译会有一个质的飞跃,在机器翻译领域占取一定的市场份额也不是没有可能的。希望阿里翻译平台开放后能给用户一个惊喜。

据雷锋网了解:在阿里巴巴内部,PAI已经被广泛使用。淘宝搜索使用PAI的参数服务器,可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破规模瓶颈。最终实现搜索结果基于商品和用户的特征进行排序。现在,阿里翻译团队还在破解线上服务处理延时的难题,为神经网络机器翻译模型的大规模应用扫除最后障碍。

via雷锋网

本文作者:杨文

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-11 12:47:29

马云爸爸“翻译情未了”? 回顾阿里翻译平台的进击之路!的相关文章

上帝的巴别塔在崩塌?阿里翻译一年2500亿次调用,节省25亿美元

神经网络机器翻译(Neural Machine Translation, NMT)模型自2013年在学术界首次被提出后,就不断快速发展,目前在某些语种和场景下,译文质量甚至可以达到人工翻译的水平. 阿里翻译团队自2016年10月起正式开始自主研发NMT模型,2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部评测中并取得了不错的成绩,翻译质量有了大幅度提升. 但是,由于NMT模型的结构复杂,且深度神经网络模型本身的训练过程一般又会涉及很大量的计算,因此NMT系统往往需要较长的

“盲人”马云:从中国黄页到阿里 骑着盲虎贩卖梦想

"深凹的颧骨,扭曲的头发,淘气的露齿笑,一个5英尺高.100磅重的顽童模样." 2000年7月17日,马云成为第一个登上<福布斯>封面的大陆企业家.从创办中国黄页到掌舵阿里巴巴,马云用梦想.承诺与坚持串起了自己的创业史.马云自喻为"一个骑在盲虎身上的盲人",抱着根本不明白将来会怎么样的心态,他已挺过一个个创业的艰难时刻. "骗子"马云与中国黄页 许多成功者的第一个创业项目都与后来真正做大的主业并不一致,马云也是如此.1991年,马云成

云计算周热点回顾:阿里云棒棒哒!

本文讲的是云计算周热点回顾:阿里云棒棒哒![IT168 资讯]本周云计算领域发生了哪些事儿,让我们一起来回顾一下.本期涉及以下几个厂商(LOGO位置随机摆放-) IBM推出全球首个商业化量子计算云服务--IBM Q 3月6日,IBM正式宣布将在今年年内推出全球首个商用"通用"量子计算服务--IBM Q.该系统可以处理过于复杂.高速发展以至于传统计算系统无法处理的各种问题,并有助于加速药品开发及科学新发现.此外,IBM还发布了针对IBM Quan Experence的API(应用程序接口

Android官方文档training中英文翻译目录大全:29篇已翻译,45篇未翻译

Android官方文档training中英文翻译目录大全:29篇已翻译,45篇未翻译   1. Getting Started Building Your First App: 原文: https://developer.android.com/training/basics/firstapp/index.html译文:http://wiki.eoeandroid.com/Building_Your_First_AppAdding the Action Bar:原文:https://develo

chrome浏览器当前页面,怎么右击翻译--单词--,不是翻译整个页面,不跳转

问题描述 chrome浏览器当前页面,怎么右击翻译--单词--,不是翻译整个页面,不跳转 就是右击这样 解决方案 在这里找找看看.http://www.zhihu.com/question/20158063 解决方案二: 你不打算全部翻译啊,那你可以试试浏览器的菜单栏,貌似有查词

马云:大数据云计算是阿里未来核心战略

本文讲的是马云:大数据云计算是阿里未来核心战略[IT168 云计算]北京时间10月8日晚间,阿里巴巴集团董事局主席马云和CEO张勇在年报致投资者的公开信中表示,全球化.农村经济和大数据云计算将成为阿里未来十年的发展大方向,并表示将不惜一切投入发展数据技术,让数据和计算能力成为普惠经济的基础. "狭义的电子商务仅仅是今天阿里巴巴集团战略的一部分."马云在公开信中表示,阿里巴巴的战略是打造未来商业社会的基础设施,电子商务只是整体战略的第一步,"我们非常明白只有依靠互联网技术和大数

《熊》曝光海报李晨尚雯捷“人熊情未了”(图)

新浪娱乐讯 由北京俊彩星驰影视文化传媒有限公司出品,中影集团数字电影发展有限公司.盛奇文化传播有限公司联合发行的悬疑爱情喜剧<熊出没注意>,即将于10月1日全国上映.这次参与演出的不仅有华谊旗下当红小生李晨和人气歌手尚雯婕,还有一个熟悉的面孔李乃文.曾与李晨共同出演冯小刚导演<集结号>的李乃文,不同的是,这次在<熊出没注意>中却与李晨"兄弟反目". 李晨李乃文同门反目 <集结号>后再合作 李乃文在<熊出没注意>中饰演的角色叫白

马云33亿控股恒生 阿里金融扩版图

恒生电子昨日发布公告,宣布恒生电子接到控股股东恒生集团书面通知,浙江融信拟以现金方式受让恒生集团100%股份,合计交易总金额约32.99亿元. 本次交易完成后,浙江融信通过恒生集团持有恒生电子20.62%股份.恒生电子创始人及现高管团队持有恒生电子10%股份.浙江融信实际控制人马云将成恒生电子实际控制人. 虽然本次收购恒生集团股份主体是浙江融信,浙江融信与阿里集团并无股权或控制或被控制关系,但马云是阿里集团董事局主席及实际控制人,此番成恒生电子控制人易引发外界猜测. 基金公司和证券公司为恒生电子

周润发遇见谭咏麟“鱼”情未了(图)

周润发双手搭着谭咏麟肩膀 坐公交车 早前谭咏麟为演唱会健身,开完演唱会后继续尽情吃喝 勤拉筋 新浪娱乐讯 北京时间2月12日消息,据香港媒体报道,周润发和谭咏麟(阿伦),一个贵为国际巨星,一个是红遍东南亚的乐坛校长,昨天(2月11日)竟同一时间出现在香港旺角"金鱼街".二人曾于二十多年前合作电影,昨天(2月11日)在金鱼街偶遇,可谓"鱼"情未了. 贵为好莱坞影星的周润发,有空时最喜欢带着心爱的相机到处游山玩水,在家还喜欢下厨做菜,出入街市,乘坐公交车.而有"