【编者按】
近日,阿里云在 2016年 会上公开展示实时语音识别技术,并现场挑战世界速记大赛亚军得主。据现场最终评测,机器人在准确率上以 0.67%的微弱优势战胜第 50 届国际速联速记大赛全球速记亚军姜毅。
虽然是第一次正式亮相,但阿里云iDST的语音识别系统,已经在阿里巴巴的多个业务场景中应用了。从去年开始,阿里集团与蚂蚁客服每接听一个电话,都会立刻启动一个叫风语者的系统,它就是自动语音识别技术,将语音转变成文字,千分之三的人工抽检可以瞬间升级为100%的自动质检。除此应用场景之外,阿里YunOS、阿里小蜜以及手淘,现在都已经应用到阿里云的语音识别系统。
下文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!
智能语音交互@阿里巴巴
iDST-智能语音交互团队的使命是在阿里巴巴的技术平台上,为阿里巴巴以及阿里巴巴生态圈里的中小企业提供智能语音交互体验。
阿里巴巴为什么要自己做智能语音交互技术?
首先,在移动互联+大数据时代,智能语音交互技术将架起用户跟成千上万的互联云端服务之间的桥梁,成为下一个必争的入口。
其次,阿里巴巴本身就具有非常丰富的应用场景需要智能语音交互技术来优化体验(Speech+),而阿里巴巴生态圈上的中小企业也需要Speech+。
语音交互在下面几个场景中能给用户带来巨大的体验优化:
1. 在有很多选择的场景中快速直达
– 在手机上众多的APP中直接用语音进入一个应用并完成相关操作
例如,对着手机说“用支付宝给某某转帐100元”,就可以直接打开支付宝钱包,并把转帐的对象和金额填好,用户只要确认,就可以完成转帐。
– 在call center服务中直接用语音直达适合自己的服务选项
例如用户致电蚂蚁客服说“我向支付宝充值怎么没有到帐”,系统就会直接把用户转接到“支付宝转帐”技能组,并把相关信息展示给客服小二。
2. 屏幕很小或没有、手眼在忙
– 用遥控器选择电视盒子中的服务
– 开车在路上
– 通过智能音箱、智能手表或其他智能设备访问互联网服务
3. 让沉睡的语音数据发挥出巨大的价值
– 在互联网上、call center中沉睡着很多录音数据,这些数据很难直接利用和分析,一旦转成文字,就可以利用各种自然语言处理技术来发掘价值了
智能语音交互体验背后的支撑技术
当一个产品经理在规划产品中的语音功能时,在大多数情况下,TA需要的不仅仅是语音识别,还包括背后的智能交互(理解用户的问题,回答用户的问题,在需要的时候发问,根据用户的回答来决策等等)。概括起来,表面上看到的语音交互,背后实际上包含三个层次技术(语音技术、智能化技术、大数据技术),覆盖面非常广。这些技术不是靠一个团队能独立完成的。在我们实现的每个场景中,都需要跟很多团队业务层面、数据层面、数据服务层面等方面协作。
语音技术
– 语音识别(ASR)-- 把人讲的话转成文字
相关文章:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用
– 语音合成(TTS)-- 把文字说出来
相关文章:语音合成在语音助手中的应用及扩展
– 声纹识别和认证((Speaker Identification and Verification))-- 从众多候选人中确认发音人的身份或者认证发音人是否为某个特定人。在应用中,可以通过这些技术唤醒应用、解锁密码等。
相关文章:特定人语音唤醒简介
– 情感识别 — 通过用户讲话的语气语调、用词等线索,判断用户是否有不满或处于生气激动状态
智能化技术
– 自然语言理解(NLU)--- 了解用户的意图
相关文章:自然语言理解
– 多轮对话管理(DM)
• 通过提问来进一步明确用户意图
• 跨领域对话
– 自然语言生成(NLG)--- 把查询到的信息反馈给用户
– 场景感知(contextual awareness)--- 根据前面对话内容、当前地理位置、收到的邮件短信中的内容来更好了解用户意图
– 个性化 – 通过用户的过往行为或选择,做模型的自适应,为用户提供更有针对性的服务
大数据技术
– 各种垂直领域的数据服务(天气、航班、餐馆、…….)
– 垂直搜索或通用搜索(OneSearch、神马搜索、钱包搜索等等)
– 知识问答(基于知识库、知识图谱的问答)
– 开放式聊天
相关文章:数据驱动的多策略聊天引擎
– 大规模机器学习模型的训练
• 深度学习算法的GPU多机多卡训练
相关文章:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware
• 智能语音服务的数据闭环
相关文章:语音识别pipeline建设