数据智能时代,语音交互将是第一爆发领域

在云栖TechDay第十五期活动上,阿里云iDST总监初敏博士给大家带来了题为《数据智能时代的语音交互》的分享,初敏博士认为当今是一个数据驱动的智能时代,语音交互将是这个时代的第一爆发领域,将会形成新一轮入口之争。她主要从语音识别与合成、人机对话、应用案例分析三部分展开了此次分享。

下面是现场分享观点整理。



自从谷歌的Alphago战胜李世石后,人工智能在全世界范围内引起了高度关注。细看近年来备受热议的人工智能案例,实际上是机器学习特别是深度学习技术的发展和普及的结果。而今天的深度学习,跟三四十年前神经网络技术在原理上其实没有本质差别,最大的差异就是网络规模。以前大家只敢尝试一个隐含层,今天语音识别中常用的是7、8个隐层,甚至有人尝试一百多个隐层。以前一个隐层上也就放二三十个节点,今天可以放1024或2048个。我们之所以可以这么任性地增加网络规模,并不断构建出各种复杂的网络结构,一方面是计算能力的增强,另一方面是可以用来训练模型的数据规模的增加。因此可以说,近几年人工智能发展最主要是大数据驱动的机器学习技术的发展。

今天我们所做的学习,其实是在向数据学习;而今天看到的机器智能,大多数是从数据中学来的。因此,现在是一个数据驱动的智能时代。

图一 阿里云数据智能图谱

阿里在这个方向上,做了大量的布局,比如文字识别、人脸识别、图象识别,特别在电商领域做很多图象的分析。

我们为什么称之智能语音呢?这是因为语音不仅仅局限语音识别本身,同时还包括对所得到的文字的真正理解,甚至进一步的交互,这样才具有真正的智能性,而并非传统的将语音转化为文字。语音在人工智能这个圈子里,可以说是最成熟、最接近应用的领域之一。随着移动互联网时代的到来,手机、智能家居等设备呈现小型化、无屏化的趋势,语音就成为了一个最方便的入口。因此,在这个正在到来的数据智能时代,我们认为语音交互将是第一爆发的领域,将会形成新一轮入口之争。

图二 阿里巴巴丰富的应用场景

到目前为止,阿里对语音的研发大概只有一年多的时间。阿里本身具有很大的客服系统,每天都有几千个坐席用于电话服务,同时还保留通话录音。但是这些录音是无用的数据,因为没有人来听它,除了客服团队会对很小一部分进行服务质量的抽检调查。而客户为同一件事再打客服电话时,遇到一个新的服务人员,就又需要重复之前所讲过的事情,导致客户体验非常之差。

那么智能语音可在其中发挥怎样的作用呢?它能将这些录音转化为文字,再通过自然语言的处理加以应用。例如在“质检”场景中,从文字提取有用信息,检测每一通电话是否存在问题。以蚂蚁客服为例,原本30多人的质检团队只能抽检1%的通话。而使用语音智能质检系统后,只保留10+人的质检团队就做到了100%的质检。 

语音识别与合成

上述讲的是目前人工智能整体的大背景,未来所谓的人工智能最核心的是数据驱动的人工智能。在整个过程中,不仅仅是一个算法、深度学习,其中最本质的是要用数据将其驱动起来,才能获得真正的智能。

我们目前所做的工作,主要集中在语音和人机交互两个方面,一部分是基础的语音识别、合成;另一部分是人机间的交互对话。首先介绍的是我们在语音识别方面的工作。

图三 语音识别的基本原理

如果将语音识别系统看成一个黑箱过程的话,那么它的作用就是把语音转换为文字的过程。从大体的原理上来讲的话,语音识别解码器最大后验决策的过程,给出一个语音的特征序列X,找出后验概率最大的一个文本串W。实际实施的时候,通过贝叶斯公式的分解成为两个模型,一个是声学模型,它的功能就是评估你的发音是什么,比如是发的是 b/p/m/f,还是d/t/n/l。 目前是使用深度神经网模型来完成;另一个是语言模型,这一部分则是评估哪一个文字串是更自然的语言。一般是用ngram模型,目前大家也在探索各种深度学习模型。另外还会用到发音词典这个资源。

其中获取声学模型和语言模型的过程称为模型训练过程。执行最大后验概率决策的过程成为语音识别解码过程。, 

图四 声学建模

人的发音实际上是声带振动,通过振动产生周期性的波;声道相当于一个截面积不断变化的管子,不同形状的管子具有不同的共振频率,我们称之为共振峰,共振峰不同所发出的音就不同。 所谓的声学模型就是基于这类特征进行建模,比如说/a/和/i/的共振峰差异就很明显。最小的建模单位称之为音素(/a/、/i/、/u/、/z/、/c/、/sh/等)。在中文和英文中,最小单位是不同的,中文通常会大一些。

传统上比较流行的建模方式是采用马尔科夫链来描述一个音,包含不同的状态。但经过二三十年的发展,已经达到了尽头,每次优化的效果错误率下降仅仅相对8%-10%左右。在2011年,微软邓力、余栋等在大规模连续语音识别任务上成功的应用的DNN深度学习模型。它是把这个语谱图灌进去,在马尔科夫链的基础上,再用深度学习训练,可实现30%相对错误率的下降。在此基础上,语音识别就逐步变得可用起来,因此可以说深度学习最初的成功是在语音识别方面的,这是因为语音识别是一个非常好的封闭学习系统,学习目标是非常清楚的。

刚才所讲的是一个简单的DNN的模型。随着深度学习的发展,人们逐步在模型的拓扑结构上做文章。LSTM是一个RNN模型,通过设置门的开关有选择地实现记忆与遗忘。另外一种是BLSTM,其在进行当前判决时不仅考虑历史数据,还会等待后面的数据进来后一起用来做判决。所以准确率会大大提高,相比于DNN模型,又可以实现错误率25%左右的相对下降。但是它带来的问题是:因为要在收到右边的内容后才能完成现在的判决,在时间上,就会形成判决的延迟。因此我们目前做的是长度受限(LC)BLSTM,兼顾准确性和时效性。该模型计算复杂度比较高,应用的难度在于时效性。我们在这个方面做了很多优化工作,最终使得这个算法可以达到0.6倍的实时,并完成第一个工业界生产系统的部署。如今,这个系统已经成为阿里云云栖大会的标配(提供实时语音字幕)。

图五 语言模型

关于语言模型,它本质就是描述句子出现的概率。通常符合人说话规律的句子的概率会高于随机词组组合而成的语句。过去流行的模型是n-gram模型,现在仍然是主流模型之一。但是目前的研究热点是RNN模型。从套路上讲,语音识别在过去的二三十年内并没有发生太大的变化。真正的变化在于深度学习本身。

图六 数据规模和计算效率至关重要

在今天会议现场,大家可能注意到在我讲话的时候,可以实时产生滚动字幕,这就是我们的小Ai语音识别系统。小Ai的这项能力,今年3月首次在内部亮相,当时小Ai参加了阿里云年会,并当场跟中国速记第一人姜毅进行了PK。最终,小Ai以微弱优势胜出。

我们是春节前接到要在阿里云年会上进行人机PK的任务,包含春节假期一共不到一个月的准备时间。为了取得最好的效果,我们决定采用BLSTM模型,是深度学习中一个比较复杂但学习能力更强的模型。这个模型当时还在研发阶段。所以大家兵分两路:一路同学利用我们已经采集到的1万多小时手机语音,做各种实验,来确定模型的最佳结构和参数,这就意味在数十块GPU卡上,并行进行好几组实验。两三周的时间这个模型小组完成了几十组对比实验。与此同时,另一路同学在集团内外到处收集各种演讲数据,在网上收集关于云计算、大数据领域的各种新闻和文章。这些数据的目的是帮助小AI适应垂直领域演讲。

刚才讲的是语音识别大的框架,如果说难是非常难。因为必须把每一个细节都十分完美地解决,最后才能得到特别好的效果。但整体来看,并没有特别神奇的点,仅仅是在不同的深度学习的模型上进行调试,重要的地方就是迭代能力和数据量的大小。因此数据的采集和使用就变得尤为重要,所以机器学习远远不是只研究某个算法,对企业而言,真正好用的数据模型一定是经过大量的数据验证的。

对于语音合成的前端处理,之前比较流行的是用CRF算法来预测停顿边界和等级,现在大家更多的尝试使用机器学习来解决这个问题。声音合成部分目前存在两种方法,一种是参数合成;另一种是波形拼接合成。

人机对话

刚才所讲的是语音的识别与合成,但这相对于今天所说的智能语音而言是远远不够的,这是因为我们希望在识别过程中能够进行理解,可以进行人机对话、交互。

图七 人机对话的发展趋势

从上图可以看到,人机对话分为口语理解+单轮查询、多轮对话、开发者平台+定制交互流程三个阶段。其中各阶段最为核心的在于自然语言的理解,例如在“订一张上海飞北京的头等舱,下午5点出发,国航的”语句中,通过分类器将场景中最为重要的参数提取出来,然后用到火车票的数据服务去取结果并返回给用户。但用户往往不能在一句话中把所有的信息都提供出来。那么就需要通过多轮对话明确用户意图,一般是分为两个阶段:第一阶段,通过对话得到结构化查询;第二阶段,将查询的结果通过自然语言反馈给用户。

图八 自助服务机器人

在问答场景中,需要准确找到用户问题的对应答案。通过问答引擎后,又分为三种形式:基于知识库的问答、基于知识图谱的问答、开放式聊天。每个企业都肯能用户自己的FAQ或者知识库或知识图谱,数据来源可以是企业内部数据库或互联网数据。

 

图九 赋能生态圈

刚才所讲的这些技术点,阿里目前也正在做。我们希望能够自行搭建最核心的基础平台,然后提供给开发者用于定制化开发。所以我们会做底层核心技术的研发,在此之上提供了一些定制工具。通过用户上传数据或者典型的资料,对应的在用户所处的环境内进行优化。

在客户端,因为语音是比较复杂的,因为它必须有个数据采集端(录音口),这一点尤为重要,如果录音出了差错,那之后的工作基本就等于白费了。因此一般选用麦克风矩阵进行采样,在噪声较大的环境中还需要降噪处理,以保证录音的质量。

今天我们通过阿里云数加平台发布了一部分成果,包含技术文档、SDK等等,感兴趣的听众可以去自行查看。

应用案例分析

刚才更多讲的是技术,下面我分享几个具体的案例。

图十 语音识别助力行业变革

我们和蚂蚁客服有着深度合作。在双11当天大概有500万用户的查询,实际上94%都是自动解决的,只有6%是通过人工解决。这背后采用了大量的人工智能的技术,如上图显示的“安娜”。这是一个自动问答机器人,不仅可以回答你询问的问题,而且会根据你的历史行为进行提早预测你可能遇到的问题并给出建议。

另外一个工作就是:在客服电话时,用户可以通过语音来表述自己的问题,通过智能语音识别和交互转接到对应的客服上,免去了传统的不停跟随提示按键的步骤,缩短了服务过程。

 

图十一 YunOS手机中的个人助理

另外一个是在YunOS手机中的个人助理,其中包含了二十几个领域的信息,还包括一些可执行命令,例如设闹钟、发短信、打电话等。后续还会加入人性化的功能。

图十二 阿里小蜜

最后一个案例是阿里集团客服的合作——手机淘宝中的阿里小蜜,它通过语音的交互实现售前、售中、售后的打通,全方位的为消费者服务。   

总结

智能语音可以有很多创新的用法。在未来的几年内,智能语音一定会非常快地普及和推广开,并且应用于各类场景。



关于分享者

初敏博士,阿里云iDST总监

时间: 2024-09-30 09:04:33

数据智能时代,语音交互将是第一爆发领域的相关文章

数加:开启数据智能时代 ——从CIO/CTO晋升到CDO

摘要:本文的整理自2017云栖大会-成都峰会上阿里云高级产品专家陈鹏宇的分享讲义.讲义主要介绍了阿里云数加•Quick BI,它是一把能降低数据分析技术门槛的钥匙.能实现零SQL,拖拽式,类Excel多维分析,并且拥有丰富的模板,使员工能快速搭建报表和门户. 在2017云栖大会-成都峰会上,阿里云高级产品专家陈鹏宇做了关于<数加:开启数据智能时代--从CIO/CTO晋升到CDO>的分享.CIO/CTO管理的资产里面数据是唯一不会折旧且增值无上限的资产.通过阿里云产品数加•Quick BI不仅可

没有语音交互,不谈智能手表

    智能手表的自我修养:自由.安全感.活在当下 一块合格的智能手表,除了可以耍帅看时间外,还应该能够让用户获得生理和心理上的自由:即使双手不接触设备,也能方便地启动设备和发布指令:即使视线并不锁定在屏幕上,也能用眼角的余光快速获得最重要的信息. 同时,智能手表还应能及时推送最相关的资讯,过滤垃圾信息和噪音,给予用户随时在线的安全感,以便用户专注于最重要的事情. 简而言之,智能手表不应该是戴在手腕上的缩小版智能手机.另一个信息干扰源,而应帮助用户更好地活在当下,享受生命的真实和美好. 语音交互

AI与大众最近的接触——智能语音交互

互联网的变迁过程 互联网的变迁主要体现在内容.入口.人机界面三个方面. 互联网内容的变迁 图一 互联网内容的变迁 时至今日,互联网的内容已经发生了很多变迁,早期的互联网以获取信息为主,例如人们通过Email收发信息.在BBS上灌水.通过门户网站了解新闻等等.阿里巴巴的起点也是从Alibaba.com开始,最初仅是为国外买家获取信息.购买国内供应商的产品起到牵线搭桥的作用. 随着网络的发展,互联网不仅仅再局限于获取信息,消费者逐渐可以通过淘宝.天猫.聚划算等网站购买生活必须品:现在,除了提供信息和

阿里云首席科学家周靖人:数据智能引领产业变革

10月24日(1024),是开发者的节日. 也准备了一份特别的礼物:<2016杭州云栖大会回顾专题>,共计325+份PDF下载,100+场峰会与分论坛视频点播的专题送给大家!也欢迎朋友们将参会感受.学习笔记等共享给我们(yqeditor@list.alibaba-inc.com). 下文为<阿里云首席科学家周靖人:数据智能引领产业变革>,更多文章见这里. 10月13日,阿里云首席科学家周靖人在云栖大会主论坛上带来题为<数据智能引领产业变革>的主题演讲,他表示,随着计算能

Alexa估值近百亿美元,AI巨头为何在语音交互市场抢夺赛道?

1.国内外巨头相继进入语音交互领域 去年10月份,Intel与科大讯飞宣布合作共同研发AI芯片,该芯片将麦克风阵列.远场语音识别等功能集成到SOC当中,形成完整的远场语音交互链条,此次合作正式宣告Intel也将进入智能语音交互市场. 此前,科大讯飞的麦克风阵列等硬件一直委托国内的全志科技研发,全志科技显然是ARM阵营的追随者.然而,根据Intel内部人员的透露,科大讯飞对于和国内芯片厂商的合作并不完全满意,语音交互市场竞争激烈,而国内初创公司如声智科技等,在麦克风阵列技术和方案方面带给讯飞不小的

智能语音交互:阿里的研究和实践

云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲.本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出.   在众多的人工智能应用中,智能语音交互是大众能够最近距离接触到的一个.从几年前的手机语音助手,到近年来的互联网汽车.智能音箱.电视.IoT设备等,语音交互正以前所未有的深度和广度,融入雨后春笋般涌现的各种智能设备中.国内外各大互联网公司和众多初创企业都瞄准了智能语音交互这一重要领域,并视其为下一

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

智能语音交互平台决战在即,创业者们的机会在哪儿?

本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事). 平台是很有意思的一种软件品类,先天具有过去很多产品所不具备的一些特质,比如彼此间的不相容性(也可以叫寡头性).非线性增长性等.这些特性也就注定了现在语音交互赛道上的各种平台早晚之间必有一战. 注意力过剩的语音交互赛道 很多人可能并没注意到纯以平台论,语音交互这个赛道已经足够拥挤.最先发的有百度 DuerOS,随后陆续跟进的有阿里的 Aligene 和腾讯的小微,最近发布的则有思必驰的 DUI 和京东的 Alpha,小

智能时代必将崛起的两者:语音产业与深圳

雷锋网按:本文由DeeperBlue发布雷锋网(公众号:雷锋网).转载请联系授权,不得删减内容. 智能时代 什么样的企业有可能成为未来世界的巨头?或者说,传统巨头如果要顺应潮流,最有可能会朝哪个方向去转型?深蓝这一次和你聊一聊,智能时代的发展方向. 当然不是让你去深圳买房. 写在前面 人类从 PC 时代来到了智能时代. 首先出现的是智能手机,一个叫乔布斯的男人生前最伟大的贡献之一就是把智能手机的使用难度降低.适用范围扩大,以至于智能手机成为了人人都会用.人人都愿意使用的生产工具.在这之后,智能音