在同声传译这件事上,Skype是如何击败99.9%的地球

摘要: Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。 Skype的翻译系统主要分三步:首先,把你的实时语音转换

Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。

Skype的翻译系统主要分三步:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字一直是最棘手的部分。

图像处理和语音识别是深度学习发展的两个主要方向。近几年来,由于深度学习的进步,语音识别依靠深度神经网络(deep neural networks)也取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒是在2012年,Google让计算机能够“自我修养”——在一堆视频里自主学习并总结出猫的概念。

微软研究员John Platt在接收wired采访时曾表示,微软其实很早之前就开始利用神经网络改善平板电脑的手写识别精确度了。而Skype实时语音翻译系统真正的突破在于识别不同用户间的不同语言不同口音的说话方式。

这一突破发生在2009年的圣诞节,当时微软在英国哥伦比亚赞助了一个小型研讨会,来自多伦多大学的演讲嘉宾Geoff Hinton介绍了自己研究的一种模仿脑神经工作原理的机器学习模型,这一模型依靠多层次的人工神经元,让机器逐渐理解更加复杂的概念。微软听完介绍后,随即砸下一笔巨款,让Hinton的模型可以利用最新的图形处理器单元进行测试。测试的结果很棒,语音识别的精确度提升了25%。

Skype的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。

其中,语音识别和机器翻译的训练集数据主要有多个来源,包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。此外,很多志愿者向微软贡献出的语音对话也是一个非常重要的训练集数据来源。同时,Skype的翻译系统还会记录用户的对话内容,实现二次利用,以进行数据分析,加以学习。

在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性,让实时翻译能够有更大的应用范围。

至于不同语言的文本翻译,Skype利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而Skype翻译系统不仅包括Bing翻译的引擎技术,还额外增加了一层口语化的语言业务。

此外,Skype还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。如何简单又高效的运作整个系统,也是一门不小的学问。

Skype的实时语音翻译系统还面临着很多挑战,比如语言的变化的速度很快,每个人说话的方式又很独特,这些都会为实时翻译造成不少的麻烦。微软研究院总监Vikram Dendi说,截止到星期一,总共已经有5万个用户注册了预览版Skype翻译,而一天后,这个数字变成了两倍。对于这一种可能会真正改变人们交流方式的科技产品,越来越多的人为之感到激动。

时间: 2024-10-02 13:47:15

在同声传译这件事上,Skype是如何击败99.9%的地球的相关文章

王建宙:4G如果让同声传译消失那我们太高兴了

原中移动董事长王建宙4G来了,您准备好了吗?3G未尽的梦想,我们在4G时代能够实现吗?关于4G,今年一年的资本市场都给予了强烈的认可和追捧,那随着牌照的发放,4G带来的商机会不会触手可及?4G会不会给一些中小企业家.创业者带来新的机会?央视财经频道主持人沈竹和特约评论员中国上市公司协会会长.原中国移动董事长王建宙.小米科技董事长雷军共同评论.4G来了,您准备好了吗?3G未尽的梦想,我们在4G时代能够实现吗?4G带来的商机会不会触手可及?王建宙:有了4G之后很可能导致同声传译行业的消失简单地说,用

谷歌开发同声传译手机:有望几年内面市

北京时间2月9日早间消息,据国外媒体今日报道,谷歌正在开发全球第一款具备同声传译功能的手机. 谷歌将把现有的语音识别和自动翻译技术整合到这款手机中,并希望能够在几年内开发出基本的架构.如果这一想法能够实现,最终将为全球6000多种语言的用户提供语音翻译服务. 谷歌已经创建了一款能够在电脑上使用的自动文本翻译系统,并且通过对全球数百万个多语种网站和文档的扫描提升了性能.目前为止,该服务已经涵盖了52种语言,上周刚刚增加了对海地克里奥尔语的支持. 谷歌还拥有一款语音识别系统,能够让用户通过手机使用网

放料的仍然是在这件事上从头扒到尾的 BGR

又有亚马逊智能手机的新消息,此次放料的仍然是在这件事上从头扒到尾的 BGR.在距离正式发布还有一个多月的时候,BGR 又独家获得了一张 Amazon 手机的无伪装效果图. 从画面中看,Amazon 将要推出的智能手机像是集成了 Galaxy S4 的 Home 键,Nexus 4 的镜面背壳以及 iPhone 5 的正面与底部设计.但是与之前的带伪装测试机型之下,这次的图片在细节方面似乎还是与真机有所出入,但据 BGR 称,这张出自 Amazon 之手的设计图的真实性已经得到几名可靠人士的确认.

新版Skype支持语音聊天“同声传译”

新版Skype支持语音聊天同声传译网易科技讯 12月16日消息,据国外媒体报道,微软旗下即时通讯软件Skype今天开始将可以对人与人之间的语音通话进行翻译.作为预览的一部分,Skype展示了两名以英语和西班牙语为母语的小学生如何通过Skype进行无障碍交流.Skype实时将英语或西班牙语翻译成了另一种语言.听起来像变魔术,但它是微软研究团队和Skype工程师完美合作的成果.目前,该功能还处在早期开发阶段,但这一功能有可能帮助改变世界未来的交流方式.Skype的翻译预览功能适用于Windows 8

谷歌研发翻译功能手机可同声传译

本报综合报道 据英国<每日邮报>2月7日报道,谷歌公司称他们正在研制一个电话软件,几乎可以即时为通话者翻译不同语言的通话内容. 这款手机基于现存的网页及文件自动翻译软件,谷歌将会利用一个声音识别系统来翻译实时的 对话.就和同声传译一样,这个软件会自动收集谈话的片段进行翻译,而不是逐字翻译.虽然这个听起来像科幻小说,可是谷歌表示这种技术在几年内就可以应用在手机上. 然而,批评者指出,谷歌现存的文字自动翻译系统就有许多语法错误.同时,语言学家怀疑语音识别技术是否能够应付各种各样的地方口音. 谷歌翻

谷歌同声传译手机告别鸡同鸭讲

信息时报综合报道 将来与外国人沟通,可能有部配备翻译软件的手机便可,Google(谷歌)计划将他们的翻译软件及手机的声音识别软件合二为一,数年内令手机具备即时传译功能,解决"鸡同鸭讲"窘境. 据英国媒体2月7日报道,就和同声传译一样,系统如果成功运作,最终可以改变说全球六千多种语言人士的沟通方式. 料数年内推出 报道指谷歌的优势在于其现有两大技术:首先是以网页数据库为基础.令准确度提升的文字翻译系统:另外就是利用话音识别科技.让用户透过说话进行电话网上搜寻的系统.公司希望将两者结合,研

并购这件事上,处于拉锯战中的双马一直互不相让

在并购这件事上,处于拉锯战中的双马一直互不相让.继周一马化腾的腾讯入股京东之后,轮到马云的阿里出手,不过出人意料的是此次目标出自"文化"产业. 文化中国11日发布公告称,获得阿里62 .44亿港币的战略投资,阿里将获得文化中国60%的股份.南都记者从知情人士处了解到,阿里此举意在打通文化产业链上下游,而非借壳上市. 值得注意的是,腾讯原持有文化中国8%的股权,经上述交易后,持股量将被摊薄至3 .2%.昨日,文化中国收盘大涨185 .9%. 为什么是文化中国? 公告显示,本次文化中国向阿

在网购入口这件事上,谷歌为什么干不过亚马逊?

与中国的消费者不同,美国的消费者在有购物需求时通常将谷歌等搜索引擎作为购物的起点,通过搜索引擎进行商品的调研.对于谷歌来说,这是一类非常有价值的流量,谷歌通过广告投放的方式影响消费者的购买决策从而获益颇丰.据统计,这部分流量约占谷歌整体流量的20%,是谷歌广告收入的重要来源. 但是,伴随着亚马逊的强势崛起,这种情况正在发生变化.许多数据都表明,亚马逊正在取代谷歌成为用户网购的第一入口.研究机构Forrester 2009年曾做过一次调研,结果显示1/4的消费者将谷歌作为自己购物的第一入口,而选择

星晨急毁在了收购鑫飞鸿这件事上

昨日,星晨急便江苏一包销商告诉北京晨报记者:"公司已经开始清算了,倒闭是必然的了." 这位包销商告诉记者:"上午陈总给我打电话说不会少给钱的,先能凑多少给多少.今天,北京来人开始清算我们这里的账目了,包括星晨急便和鑫飞鸿的,各算各的.保证金3万元是给退的,其他还有一些POS机等杂费.2万元的加盟费给不了就算了,这几年和陈平相处的也不错,就当是做生意赔了." 回忆起星晨急便这几年的发展,该包销商很有感触."虽然前几年没赚什么大钱,但大家都感觉有钱花,能玩得转