【详解】智能语音交互@阿里巴巴

【编者按】

近日,阿里云在 2016年 会上公开展示实时语音识别技术,并现场挑战世界速记大赛亚军得主。据现场最终评测,机器人在准确率上以 0.67%的微弱优势战胜第 50 届国际速联速记大赛全球速记亚军姜毅。

虽然是第一次正式亮相,但阿里云iDST的语音识别系统,已经在阿里巴巴的多个业务场景中应用了。从去年开始,阿里集团与蚂蚁客服每接听一个电话,都会立刻启动一个叫风语者的系统,它就是自动语音识别技术,将语音转变成文字,千分之三的人工抽检可以瞬间升级为100%的自动质检。除此应用场景之外,阿里YunOS、阿里小蜜以及手淘,现在都已经应用到阿里云的语音识别系统。

下文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!


智能语音交互@阿里巴巴

iDST-智能语音交互团队的使命是在阿里巴巴的技术平台上,为阿里巴巴以及阿里巴巴生态圈里的中小企业提供智能语音交互体验。

阿里巴巴为什么要自己做智能语音交互技术?

首先,在移动互联+大数据时代,智能语音交互技术将架起用户跟成千上万的互联云端服务之间的桥梁,成为下一个必争的入口。

其次,阿里巴巴本身就具有非常丰富的应用场景需要智能语音交互技术来优化体验(Speech+),而阿里巴巴生态圈上的中小企业也需要Speech+。

语音交互在下面几个场景中能给用户带来巨大的体验优化:

1. 在有很多选择的场景中快速直达

– 在手机上众多的APP中直接用语音进入一个应用并完成相关操作

例如,对着手机说“用支付宝给某某转帐100元”,就可以直接打开支付宝钱包,并把转帐的对象和金额填好,用户只要确认,就可以完成转帐。

– 在call center服务中直接用语音直达适合自己的服务选项

例如用户致电蚂蚁客服说“我向支付宝充值怎么没有到帐”,系统就会直接把用户转接到“支付宝转帐”技能组,并把相关信息展示给客服小二。

2. 屏幕很小或没有、手眼在忙

– 用遥控器选择电视盒子中的服务

– 开车在路上

– 通过智能音箱、智能手表或其他智能设备访问互联网服务

3. 让沉睡的语音数据发挥出巨大的价值

– 在互联网上、call center中沉睡着很多录音数据,这些数据很难直接利用和分析,一旦转成文字,就可以利用各种自然语言处理技术来发掘价值了

智能语音交互体验背后的支撑技术

当一个产品经理在规划产品中的语音功能时,在大多数情况下,TA需要的不仅仅是语音识别,还包括背后的智能交互(理解用户的问题,回答用户的问题,在需要的时候发问,根据用户的回答来决策等等)。概括起来,表面上看到的语音交互,背后实际上包含三个层次技术(语音技术、智能化技术、大数据技术),覆盖面非常广。这些技术不是靠一个团队能独立完成的。在我们实现的每个场景中,都需要跟很多团队业务层面、数据层面、数据服务层面等方面协作。

语音技术

– 语音识别(ASR)-- 把人讲的话转成文字

相关文章:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用

– 语音合成(TTS)-- 把文字说出来

相关文章:语音合成在语音助手中的应用及扩展

– 声纹识别和认证((Speaker Identification and Verification))-- 从众多候选人中确认发音人的身份或者认证发音人是否为某个特定人。在应用中,可以通过这些技术唤醒应用、解锁密码等。

相关文章:特定人语音唤醒简介

– 情感识别 — 通过用户讲话的语气语调、用词等线索,判断用户是否有不满或处于生气激动状态

智能化技术

– 自然语言理解(NLU)--- 了解用户的意图

相关文章:自然语言理解

– 多轮对话管理(DM)

• 通过提问来进一步明确用户意图

• 跨领域对话

– 自然语言生成(NLG)--- 把查询到的信息反馈给用户

– 场景感知(contextual awareness)--- 根据前面对话内容、当前地理位置、收到的邮件短信中的内容来更好了解用户意图

– 个性化 – 通过用户的过往行为或选择,做模型的自适应,为用户提供更有针对性的服务

大数据技术

– 各种垂直领域的数据服务(天气、航班、餐馆、…….)

– 垂直搜索或通用搜索(OneSearch、神马搜索、钱包搜索等等)

– 知识问答(基于知识库、知识图谱的问答)

– 开放式聊天

相关文章:数据驱动的多策略聊天引擎

– 大规模机器学习模型的训练

• 深度学习算法的GPU多机多卡训练

相关文章:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware

• 智能语音服务的数据闭环

相关文章:语音识别pipeline建设

时间: 2024-10-26 07:18:57

【详解】智能语音交互@阿里巴巴的相关文章

智能语音交互:阿里的研究和实践

云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲.本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出.   在众多的人工智能应用中,智能语音交互是大众能够最近距离接触到的一个.从几年前的手机语音助手,到近年来的互联网汽车.智能音箱.电视.IoT设备等,语音交互正以前所未有的深度和广度,融入雨后春笋般涌现的各种智能设备中.国内外各大互联网公司和众多初创企业都瞄准了智能语音交互这一重要领域,并视其为下一

AI与大众最近的接触——智能语音交互

互联网的变迁过程 互联网的变迁主要体现在内容.入口.人机界面三个方面. 互联网内容的变迁 图一 互联网内容的变迁 时至今日,互联网的内容已经发生了很多变迁,早期的互联网以获取信息为主,例如人们通过Email收发信息.在BBS上灌水.通过门户网站了解新闻等等.阿里巴巴的起点也是从Alibaba.com开始,最初仅是为国外买家获取信息.购买国内供应商的产品起到牵线搭桥的作用. 随着网络的发展,互联网不仅仅再局限于获取信息,消费者逐渐可以通过淘宝.天猫.聚划算等网站购买生活必须品:现在,除了提供信息和

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

智能语音交互平台决战在即,创业者们的机会在哪儿?

本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事). 平台是很有意思的一种软件品类,先天具有过去很多产品所不具备的一些特质,比如彼此间的不相容性(也可以叫寡头性).非线性增长性等.这些特性也就注定了现在语音交互赛道上的各种平台早晚之间必有一战. 注意力过剩的语音交互赛道 很多人可能并没注意到纯以平台论,语音交互这个赛道已经足够拥挤.最先发的有百度 DuerOS,随后陆续跟进的有阿里的 Aligene 和腾讯的小微,最近发布的则有思必驰的 DUI 和京东的 Alpha,小

详解智能交通应用大数据“三重门”

文章讲的是详解智能交通应用大数据"三重门",武汉市悬在路口立杆上的金属小盒子--超级电子眼3个月抓了13万起交通违法,逆行.压线.套牌一眼识别,并能自动报警. 只需10秒,重庆市凭借280万多张"电子牌"的信息传递,各地的道路拥堵信息即可传递到设置在附近的交通诱导屏上. 400多个公交站点,1000多辆公交车, 80多条公交线路,全部被江苏省镇江市交通系统中央指挥中心的工作人员透过实时全景视图,实时监控.出行者随时可获得公交时刻信息和延误预报-- 全国智能交通(IT

阿里云智能语音交互iOS接入FAQ

阿里云智能语音交互iOS接入FAQ 问题1 : bitcode. ld: 'xxx/NlsClientSDK.framework/NlsClientSDK(NlsRecognizer.o)' does not contain bitcode. You must rebuild it with bitcode enabled (Xcode setting ENABLE_BITCODE), obtain an updated library from the vendor, or disable b

阿里云智能语音交互服务导览

阿里云智能语音交互 产品介绍 & 接口文档 阿里云iDST的智能语音交互服务主要有以下几个大类: 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出"能听"的应用. 语音合成服务TTS :将文字转换为声音的能力快速集成,打造出"会说"的应用. 自然语音处理NLU :集语义解析.智能问答.意图识别等功能于一体,让应用具备理解能力. 语音识别服务ASR: **在线 实时 短语音识别:一句话识别 支持流式和非流式的语音识别模式 应用模式: 语音输入法.语

Android WebView使用方法详解 附js交互调用方法_Android

目前很多Android app都内置了可以显示web页面的界面,会发现这个界面一般都是由一个叫做WebView的组件渲染出来的,学习该组件可以为你的app开发提升扩展性. 先说下WebView的一些优点: --可以直接显示和渲染web页面,直接显示网页 --webview可以直接用html文件(网络上或本地assets中)作布局 --和JavaScript交互调用  一.基本使用 首先layout中即为一个基本的简单控件: <WebView android:id="@+id/webView

下一个10年的大机会!阿里曾鸣详解智能商业

"过去十年,孕育出了第一批可能是万亿美金的公司,但他们只不过在在线广告.在线社交.在线零售取得了足够大的进步而已,绝大部分的行业都还是一个完全开放的竞技场.未来十年,是智能商业的机会." 2017年12月17日,阿里巴巴学术委员会主席.湖畔大学教育长曾鸣在个人年度公开课上,首次提出了对未来十年的商业判断. 曾鸣说,智能商业具有三大特征:利用互联网和算法的优势,低成本实时服务海量用户:满足每一个用户的个性需求:快速迭代,自我更新,自我提升. 未来十年,商业将面临三大主线:在线化,IOT(