由WMT机器翻译双向夺冠看搜狗语音交互布局

Alex Graves在《Neural Turing Machines》论文中提到的一句话一直让陈伟印象深刻——“ What is possible in principle is not always what is simple in practice”。也正因此,“知易行难”成为镌刻在陈伟行为模式中的一个准则。

陈伟是搜狗语音交互中心总监,他与搜狗语音团队似乎一直恪守着低调准则:没有准备好不发布、没有成果不发声。9月8日,WMT官方公布成绩:搜狗语音交互技术中心-机器翻译团队提交的中英和英中系统,获得了人工评价指标的双向第一名。

1、

WMT——全称Workshop on Machine Translation——是由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。9月7 日至8日,WMT2017会议于丹麦首都哥本哈根举行,系全球范围内最具权威的国际评测大赛。 

从2006年开始到2017年,WMT一共举办了12届机器翻译比赛,每一届的角逐,都代表着全球翻译最尖端水准的较量。今年不同于以往的地方在于,中译英、英译中的机器翻译部分是今年新添加的项目,属于WNT框架下的第一次。

9月8日,WMT官方公布成绩:搜狗语音交互技术中心-机器翻译团队提交的中英和英中系统,获得了人工评价指标的双向第一名。同时,搜狗语音交互技术中心提交的中译英系统在20个提交的系统中,获得八项机器评价指标中的七项第一,并且获得主要机器指标BLEU(Bilingual Evaluation Understudy)第一名。

据雷锋网了解,搜狗语音识别团队成立于2012年,机器翻译团队成立于2016年。2012年,陈伟刚刚加入搜狗。那时,团队仅仅几个人,主要研究语音识别技术。陈伟称,从2012年到如今,语音能力一直是团队重要的技术方向,围绕语音识别、输入法的结合,现在基本实现一天语音识别的请求次数高达3亿次,属于国内最大的语音APP。

语音之外,围绕搜狗的整体战略,研究自然交互与计算,也是团队目前的重点。基于此,搜狗语音交互团队的重心也会逐渐转移到多模态输入。“除了单独的语音的听、语音识别之外,我们还做了听与说,也就是合成。”

另外,陈伟对雷锋网表示,基于语音的听说能力,搜狗还研发了一些个性化技术——例如声纹识别,判断你是谁,以及是哪类语种、哪种语言,语音分析的能力。

以及,随着手机近场向远场技术的发展,例如音箱、电视,搜狗也具备了自己的麦克风等硬件能力,正是在此基础之上,搜狗考虑将输入法作为人和人交流表达信息的产品,希望用户去做跨语言的交流。

2、

一直以来,随着搜狗语音交互技术的发展,相关硬件产品也逐渐落地,对于互联网公司为什么要做硬件这一点,陈伟也谈了一下他的看法。

  •  第一,看这款产品能够带来哪些价值,有链接就可以抢占更多入口。
  • 第二,现在国内用户对于软件付费的意愿不是很强,通过销售硬件的方式,盈利可能性更高。
  • 第三,用户对于软件、硬件的迁移成本不一样,例如用户对一款智能手表的迁移成本就会比较高,相应的用户黏性一般也也就较强,这是留住用户的一种方式。
  • 第四,当你的软件做到一个非常好的效果情况下,你会发现你的频率很多时候在硬件上,你怎么把体验做得更好,你必须要对硬件有一定的把控能力。

陈伟对雷锋网表示,搜狗语音技术的逐渐公开,内在来讲,经历过一段暗自成长的过程。

时间上,从2012年至2016年,这段时间,搜狗将重心放在服务内容产品、沉淀技术上面,从2016年至2017年,是搜狗语音交互技术密集落地的时间。原因上,陈伟对雷锋网解释称,主要是因为经过足够长时间的沉淀,搜狗语音技术的能力逐渐成熟,在国内已经属于领先了,“于是我们认为有必要将落地产品拿出来。”

“搜狗一直是以技术为重的公司。”开始钻研AI 技术的时间早于阿尔法狗概念火爆的时间,方向上一直尽量将重心聚焦在输入法与搜索两个主产品。

而搜狗将产品真正实现落地的前提之一,就是当时识别技术成熟,并被运用在输入法上。陈伟介绍称,搜狗输入法刚上线时错误率达到了30%~40%,如今降至10%,流量也持续上涨。当语音质量稳定在安静、没有口音的情况下,准确率可以达到97%。

此外,搜狗围绕公司战略逐渐开始业务扩展,比如开始多模态研发、将手写放到搜狗输入法上、自研翻译技术、逐渐围绕交互形成自己的语音助手,以及目前与四维合作的车展设备、与小米电视、创维电视合作的语音交互技术等,都在逐步落地。

 

3、

技术成熟、产品落地,搜狗语音的下一步在哪里?

语音交互是一个场景非常明朗的状态,搜狗既希望将这项技术能力输出,也希望可以探索出语音交互的真实场景在什么地方。因此,搜狗将刚需场景锁定在车载、智能家居以及可穿戴三个场景,通过与包括小米、创维能较好公司合作深度定制。

2016年8月4日,搜狗推出语音交互引擎“知音”,其后,搜狗打造出“知音OS”语音交互平台,是一款面向手机、电视、可穿戴、车载设备等智能设备的语音交互平台。目前,知音OS已经在小米、魅族、创维、海尔等产品中落地应用。

目前,据雷锋网(公众号:雷锋网)了解,目前多家人工智能公司均致力于操作系统与开放平台的研发与推广,谈到搜狗的独特性,陈伟称,相比而言,搜狗知音会更开放一些。“搜狗会将自身能力与合作方做更多的深入定制,包括经验与能力层面的交流与交互。相反,其他公司或许相对封闭一些,更倾向于将定制借口掌握在自己手里,输出封闭的解决方案。”

同时,目前真正有能力将语音交互做到闭环的公司少之又少,从前端硬件结构,到后端识别合成、语义理解,再加上翻译,这些能力全部具备的公司并不多。但搜狗所具备的独特优势是,不断进行的产品迭代,可以让搜狗无论从搜索本身形成的知识积累、或是已有产品贡献出的用户数据,均积累成大规模的用户资源,进而将整个交互场景搭建得更为完善。“要将语音交互做到通用是比较难的,更多还是要围绕垂直层面发力。”陈伟表示。

至于知音OS系统的推广时间,陈伟称,目前整个团队正朝大规模推广方向走,但细水长流,还没有确定的时间点,需要等到整个团队建立稳定的吞吐能力、标准化体系、以及最适合自己的场景。“大方向还是由搜狗搭建技能平台,由用户自己去自定义、自定制。”

本文作者:吕倩

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-02 08:09:25

由WMT机器翻译双向夺冠看搜狗语音交互布局的相关文章

Airpods 并非无用,而是苹果借助语音交互布局物联网的新“棋子”

新一代 iPhone 最大的槽点或许就是取消35毫米的耳机接口,随着而来的,则是对苹果此次力推的无线耳机 AirPods 的「口诛笔伐」.但千万不要把 AirPods 仅仅作为一款耳机,一款属于 iPhone 的配件.事实上,苹果为 AirPods 找到了新定位,此处的竞争对手并非各种蓝牙无线耳机厂商,而是亚马逊和 Google. AirPods 的市场定位 如果仔细看过今年 6 月份互联网女皇 Meeker 的报告,相信对下面这幅图并不陌生: 上面这幅图就是人机交互的演变.进入电脑时代,人机交

高德地图语音交互实测 看周星星导航包

本文讲的是 :  高德地图语音交互实测 看周星星导航包  , 近日,高德地图在京召开发布会,宣布在未来一年内,将把"声音"作为重要的产品战略方向,围绕"更专业.更懂你.更快乐"的理念为用户打磨高德地图的语音能力.同时,高德地图还公布了全新上线的"周星星经典语音包",由香港著名演员周星驰的"御用"国语配音者石班瑜亲自为高德录制.这也是继林志玲.郭德纲之后,高德地图推出的第三个全程明星导航语音. 那么,高德地图最新推出的语音搜索,

智能互动功能强大 搜狗语音助手体验

新功能/生活信息/闹铃提醒1月15日消息,由 蚕豆网与TechWeb共同主办的2012年度最受欢迎的十大移动应用暨第二届 鹤立奖评选近日揭晓,搜狗语音助手获选2012年度最受欢迎的十大移动应用.搜狗语音助手软件价格:免费软件版本:1.0.52软件大小:7.4MB系统需求:Android 2.2及以上版本下载地址:搜狗语音助手自2012年11月发布至今,取得了业界广泛的关注,其语音控制.语音搜索.人机交流,借助搜狗对中文的深刻理解和多年搜索积累,搜狗语音助手为用户带来精准识别.精准回答.智能互动的

Siri的语音交互革命

iPhone 4S融入了语音功能,这将是手机的革命性的交互操作.或许你使用过Android的语音命令.Bing的语言搜索和Dragon Dictation的语音输入,但是这些和Siri还有很大差距: a.语音命令只能理解系统特定的词汇. b.语音搜索与手动输入是并列搜索方式,识别词汇再搜索. c.语音输入也是将语音声波转换为文本. 而Siri不但包含以上技术,看似还要理解用户说话的意思,将人类语言翻译成系统可以理解的语言,之后再执行命令.之所以像是理解用户,个人认为原因在于: a.视频弱化了特定

蓦然认知 CEO 戴帅湘:对话式语音交互将无处不在 | CCF-GAIR 2017

雷锋网注:2017 年 7 月 7 日至 9 日,由中国计算机学会(CCF)主办.雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的 CCF-GAIR 全球人工智能与机器人峰会在深圳如期落地.会议第一天,国内外顶尖学者和从业者各自带来了丰富的行业干货分享,随后两天,GAIR 的机器人.智能助手.金融科技.AI+.智能驾驶等各个专场又为各领域从业者提供了密切交流和学习的机会. 蓦然认知是近两年在自然语言理解方面表现最为抢眼的公司之一,其扎实的语义理解技术已经为暴风 TV.上汽大通.VINCI 等

“明明白白我的心” 语音交互成无人驾驶汽车刚需

试想,如果有一天人类与机器人对话,会使用什么方式?尤其是当人类指挥一个车型机器人行驶在道路上的时候,是用计算机语言不断给机器人输入代码,还是只是简单地使用人类最熟悉的交互方式--人类语言?答案显而易见. 语音交互成自动驾驶汽车刚需 与传统汽车不同,目前被热议的自动驾驶汽车从本质上看相当于智能化机器人,只是智能程度不同.作为智能程度最高的无人驾驶汽车,即完全自动驾驶汽车,必须具有看.听.说.思考.决策.行动的能力,在城市道路等复杂环境中,这些能力将直接决定无人车的使用体验,甚至是使用者的生命安全.

科大讯飞股价暴跌趋势不明,语音交互产业风险巨大吗?

一直以来,科大讯飞(002230)被称为"人工智能第一股".5月份开始,股价涨势迅猛,市值近千亿.然而,在8月27日讯飞的股价却开始了毫无征兆的闪崩跳水,8月27日-28日两个交易日累计跌幅10%,市值瞬间蒸发. 图为科大讯飞28日股票指数 这一始料未及的股价震荡引起了多方对于科大讯飞质疑,以及对语音交互产业空前的巨大质疑.特别是,随后长江商学院薛云奎教授的一篇文章<科大讯飞业绩含金量低 风险巨大>,再一次把语音交互产业,甚至人工智能,推上了风口浪尖. 其实,这半年媒体对于

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

智能语音交互平台决战在即,创业者们的机会在哪儿?

本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事). 平台是很有意思的一种软件品类,先天具有过去很多产品所不具备的一些特质,比如彼此间的不相容性(也可以叫寡头性).非线性增长性等.这些特性也就注定了现在语音交互赛道上的各种平台早晚之间必有一战. 注意力过剩的语音交互赛道 很多人可能并没注意到纯以平台论,语音交互这个赛道已经足够拥挤.最先发的有百度 DuerOS,随后陆续跟进的有阿里的 Aligene 和腾讯的小微,最近发布的则有思必驰的 DUI 和京东的 Alpha,小