AI与大众最近的接触——智能语音交互

互联网的变迁过程

互联网的变迁主要体现在内容、入口、人机界面三个方面。

互联网内容的变迁

图一 互联网内容的变迁

时至今日,互联网的内容已经发生了很多变迁,早期的互联网以获取信息为主,例如人们通过Email收发信息、在BBS上灌水、通过门户网站了解新闻等等。阿里巴巴的起点也是从Alibaba.com开始,最初仅是为国外买家获取信息、购买国内供应商的产品起到牵线搭桥的作用。

随着网络的发展,互联网不仅仅再局限于获取信息,消费者逐渐可以通过淘宝、天猫、聚划算等网站购买生活必须品;现在,除了提供信息和商品之外,互联网上涌现了大量的服务,例如阿里旅行、饿了么等服务丰富便捷了日常生活。

互联网入口的变迁

图二 互联网入口的变迁

PC端是互联网最早的入口,从1999年72小时网络生存挑战中拨号上网到ADSL再到光纤到户都是属于有线的方式;随着无线技术的发展,智能手机和手持设备逐步成为互联网的主要入口,在2015年“双十一”活动中,无线占比近70%。

人机界面的变迁

图三 人机界面的变迁

最初的计算机指令是通过人工纸带输入,然后计算机返回计算结果,人机之间不存在任何交互。最基本交互是在命令行界面出现后产生,用户通过命令行或脚本输入命令后,计算机给予相应的反馈。目前,图形界面是人机交互主要方式,通过桌面、图标、窗口实现人机之间多样化的交互。

What Next?

图四 今后的发展趋势

未来互联网的发展趋势主要体现在以下几个方面:

  • 互联网内容向获取个性化服务变迁:传统地从互联网得到的内容是共性的,所有人获取的内容大都相似,随着互联网的发展,您所喜欢的音乐、视频、头条等个性化内容会直接通过终端送到你手里。
  • 互联网入口向智能硬件变迁:互联网的入口不再局限于手机、PAD和PC端,TV、车机、音箱、可穿戴设备、IoT、机器人等等设备都有可能成为互联网的入口。
  • 人机界面向自然用户界面变迁:语音交互和动作手势等自然用户界面将会超越鼠标加触摸屏的人机界面。

语音交互是NUI最自然的模式

图五 语音交互是NUI最自然的模式

之所以说语音交互是NUI最自然的模式,是因为它无需学习,各个年龄段的用户都可以轻松使用。此外,使用时无需手眼的介入,是一种很自然的人与人之间的交流。语言交互已从当初科幻电影成为现在的大众科技,例如我们所熟悉的Apple Siri / Microsoft Cortana / Amazon Alexa。

图六 语音交互是AI与大众最近的接触

使用者能够与机器进行的自然语音交互,完全得益于人工智能近年来的突破性进展,上面的折线图显示的是语音识别的错误率随年代变化的趋势,红色线条(表示难度较大的任务)从2000年开始,十年间曲线一直很平,在2012年,随着微软研发人员将学术界的深度学习等方法应用于工业界,语音识别领域率先取得了非常大的突破,错误率直接下降到10%左右,今天,在电话等较难的语音识别场景中,错误率甚至可以降低到8%左右。

智能语音交互的具体进展

图七 智能语音交互的具体发展

在语音识别领域,有三点较为重要:第一是数据闭环,数据闭环使得我们可以在用户大量的使用当中去收集到真正的数据,然后利用这些数据进行学习,帮助我们的系统进行演进;第二是深度学习带来的突破;第三是运算存储能力,阿里云的海量计算和存储能力支撑了语音识别中的复杂计算。

在语音合成方面,从最开始的逐字拼接到现在基于统计的机器学习的语音合成一直在不断地发展。自然语言处理方面,归功于工业界和学术界的研究进展,今天可以使用一个连续的空间来表达语义,基于此,演进了很多统计学习的自然语言处理技术。

智能语音交互@阿里云

图八 阿里云在智能语音交互方面的布局

阿里云在2014年底开始做智能语音交互,一方面构建基础能力用于服务内部用户;另一方面将该能力输出,构建生态体系,服务外部用户。经过一年多的发展,在阿里的生态体系中,自然语音交互无处不在,例如在手淘中,既可以使用图像搜索商品也可以用语音搜索商品。

图九 阿里云语音能力支撑内部需求

语音识别改造客服呼叫中心是阿里云语音能力支撑内部需求一个典型案例。阿里巴巴集团和蚂蚁金服客服呼叫中心每天的话务量非常大,每天有着数十万通电话和数万小时的通话数据。因此用工量也就非常大,常年需要成千上万规模自营+外包小二,尤其在双十一期间,需求陡增。

图十 传统客服中心IVR业务

上图所示的传统客服中心的IVR业务流程,该流程的带来的挑战包括:效率不高,用户体验欠佳;同时缺乏有效反馈,难以保证服务质量;此外,该流程随着业务的发展可扩展性差。

图十一 阿里内部的尝试

阿里内部的尝试主要体现在以下三个方面:

  • 沉淀客服通话数据:通过自动语音识别,将对话转写为文本,为后续机器学习奠定基础;
  • 全量自动质量控制:扫描小二的每通电话,检测基本服务质量,同时对问题进行定位质检,提升问题解答的一致性;
  • 问答机器人前置:使用机器人通过对话自动识别用户问题,提升自助渠道解决率。

图十二 智能语音交互赋能阿里云客户

互联网的急速变革和人工智能的突破性进展催生了新的人机交互模式。随着互联网内容、入口、人机界面的变迁,智能语音交互的技术门槛已大大降低,但将语音交互做到极致并持续进化仍然需要大量人力物力;同时,普适语音交互体验与高可定制的个性化体验既有矛盾又有统一。

因此,为了完成上述目标,阿里云联合YunOS正在开发阿里NUI自然交互平台。

NUI自然交互平台

图十三 NUI自然交互平台

NUI自然交互平台是自然交互行为与互联网服务之间的桥梁,它上接各式各样的数据服务,如音乐、视频、美食等等;下接多端落地,包括传统的手机、IoT、电视、机器人等设备。它所做的事情是完成用户交互到意图的转换。因此,该平台需要具有视觉、听觉、语音合成,此外还需要具有意图理解、对话管理、问答系统、聊天系统、推荐广告、数据闭环的能力。后续还可通过不断拓展自己的能力,支持更多的交互模式。

同时,依托阿里云和YunOS,开发者能够在该平台上开发出独特的、个性化的语音交互的体验。

图十四 NUI自然交互平台的功能

NUI自然交互平台的愿景是提供水电煤一样的自然交互核心能力和共性体验,降低开发门槛、提高开发效率,同时帮助生态内合作伙伴专注于业务本身及个性体验。此外,该平台还提供了落地与跨端一致性体验以及丰富、可扩展的数据与服务。

图十五 NUI自然交互平台的多维度

目前,各大公司在NUI自然交互平台纷纷布局,如Amazon Alexa 、 Apple Siri 、 Facebook M 、Google Now 、 Microsoft Cortana、 百度度秘等等。观察一个自然交互平台应该从操作系统、服务模式、端、云、服务接入、开发者支持等多个维度出发。

  • 操作系统方面,并非每一个自然交互平台都具有自己的操作系统,但自有的操作系统可以和NUI交互能力融为一体,大大提高了用户体验;
  • 智能服务的模式,不仅仅“迷信”于AI,注重AI+真人的结合;
  • 端方面,是否仅是APP支持,还是允许三方设备的接入甚至是芯片级解决方案支持;
  • 云方面,是否有云计算和数据闭环支持;
  • 服务接入方面,是否仅支持自有服务,还是允许第三方服务接入
  • 开发者支持方面,是否对开发者开放、可定制化程度高低。

图十六 国际主流NUI自然交互平台现状

国际主流NUI自然交互平台从各个维度进行切入,各平台各具特色,在未来,将逐渐趋同,但是在这个过程中,云、端、操作系统等核心能力将决定NUI自然交互平台未来的最终和成败与否。

图十七 阿里巴巴在相关领域的投入

阿里巴巴在NUI自然交互平台领域有着相当大的投入:

  • 操作系统方面,阿里2011年推出的YunOS,目前已成为世界第三移动操作系统;
  • 端方面,阿里目前推出的YunOS手机、天猫魔盒、互联网汽车、Pepper等等设备都支持NUI自然交互平台的接入;
  • 云方面,2009成立的阿里云,现在是全球领先的云计算服务平台,目前正大力投入人工智能与“云数据+大计算”;
  • 服务接入方面:目前不仅支持阿里生态中淘宝天猫、高德、虾米音乐、优酷土豆、到家、饿了么等阿里内部服务,同时支持第三方服务接入;
  • 开发者支持方面,阿里一直致力打造开放的第三方开发者服务,阿里云也尤其强调生态的重要性。

总结

互联网内容、入口、人机界面的变迁使得NUI自然用户界面变得前所未有的重要,同时核心技术突破使得智能语音交互迎来真正的爆发,进入寻常百姓家。

阿里巴巴在NUI智能语音交互方面的投入力度相当大,不仅服务阿里内部需求,同时致力于服务外部客户,构建起完整的生态体系。



本文根据阿里云iDST语音技术总监鄢志杰在8月9日举办的2016云栖大会·北京峰会上的《智能语音交互:AI与大众最近的接触》演讲整理而成。

 

时间: 2024-11-03 03:31:19

AI与大众最近的接触——智能语音交互的相关文章

智能语音交互:阿里的研究和实践

云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲.本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出.   在众多的人工智能应用中,智能语音交互是大众能够最近距离接触到的一个.从几年前的手机语音助手,到近年来的互联网汽车.智能音箱.电视.IoT设备等,语音交互正以前所未有的深度和广度,融入雨后春笋般涌现的各种智能设备中.国内外各大互联网公司和众多初创企业都瞄准了智能语音交互这一重要领域,并视其为下一

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

智能语音交互平台决战在即,创业者们的机会在哪儿?

本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事). 平台是很有意思的一种软件品类,先天具有过去很多产品所不具备的一些特质,比如彼此间的不相容性(也可以叫寡头性).非线性增长性等.这些特性也就注定了现在语音交互赛道上的各种平台早晚之间必有一战. 注意力过剩的语音交互赛道 很多人可能并没注意到纯以平台论,语音交互这个赛道已经足够拥挤.最先发的有百度 DuerOS,随后陆续跟进的有阿里的 Aligene 和腾讯的小微,最近发布的则有思必驰的 DUI 和京东的 Alpha,小

阿里云智能语音交互iOS接入FAQ

阿里云智能语音交互iOS接入FAQ 问题1 : bitcode. ld: 'xxx/NlsClientSDK.framework/NlsClientSDK(NlsRecognizer.o)' does not contain bitcode. You must rebuild it with bitcode enabled (Xcode setting ENABLE_BITCODE), obtain an updated library from the vendor, or disable b

阿里云智能语音交互服务导览

阿里云智能语音交互 产品介绍 & 接口文档 阿里云iDST的智能语音交互服务主要有以下几个大类: 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出"能听"的应用. 语音合成服务TTS :将文字转换为声音的能力快速集成,打造出"会说"的应用. 自然语音处理NLU :集语义解析.智能问答.意图识别等功能于一体,让应用具备理解能力. 语音识别服务ASR: **在线 实时 短语音识别:一句话识别 支持流式和非流式的语音识别模式 应用模式: 语音输入法.语

【详解】智能语音交互@阿里巴巴

[编者按] 近日,阿里云在 2016年 会上公开展示实时语音识别技术,并现场挑战世界速记大赛亚军得主.据现场最终评测,机器人在准确率上以 0.67%的微弱优势战胜第 50 届国际速联速记大赛全球速记亚军姜毅. 虽然是第一次正式亮相,但阿里云iDST的语音识别系统,已经在阿里巴巴的多个业务场景中应用了.从去年开始,阿里集团与蚂蚁客服每接听一个电话,都会立刻启动一个叫风语者的系统,它就是自动语音识别技术,将语音转变成文字,千分之三的人工抽检可以瞬间升级为100%的自动质检.除此应用场景之外,阿里Yu

从高盛AI报告看国内智能语音翘楚 但没有科大讯飞

雷锋网(公众号:雷锋网)按:本文作者杨剑勇,传感物联网创建人,物联网权威人士,长期关注物联网.智能家居.可穿戴智能设备.机器人和人工智能等前沿科技产业. 由于众多企业热衷于人工智能(AI)领域,更是掀起来一股前所未有的AI热潮,随着物联网的部署越来越广,作为支撑物联网应用后端服务的人工智能技术,是其最核心一环.万物互联的趋势一定是利用AI技术,使得万物具有感知能力,势必将开始一个暂新的万物感知新时代,至此谁能赢的AI,意味着就赢得未来. 四大巨头引领全球AI:百度上榜 早前美国<财富>杂志评出

Alexa估值近百亿美元,AI巨头为何在语音交互市场抢夺赛道?

1.国内外巨头相继进入语音交互领域 去年10月份,Intel与科大讯飞宣布合作共同研发AI芯片,该芯片将麦克风阵列.远场语音识别等功能集成到SOC当中,形成完整的远场语音交互链条,此次合作正式宣告Intel也将进入智能语音交互市场. 此前,科大讯飞的麦克风阵列等硬件一直委托国内的全志科技研发,全志科技显然是ARM阵营的追随者.然而,根据Intel内部人员的透露,科大讯飞对于和国内芯片厂商的合作并不完全满意,语音交互市场竞争激烈,而国内初创公司如声智科技等,在麦克风阵列技术和方案方面带给讯飞不小的

没有语音交互,不谈智能手表

    智能手表的自我修养:自由.安全感.活在当下 一块合格的智能手表,除了可以耍帅看时间外,还应该能够让用户获得生理和心理上的自由:即使双手不接触设备,也能方便地启动设备和发布指令:即使视线并不锁定在屏幕上,也能用眼角的余光快速获得最重要的信息. 同时,智能手表还应能及时推送最相关的资讯,过滤垃圾信息和噪音,给予用户随时在线的安全感,以便用户专注于最重要的事情. 简而言之,智能手表不应该是戴在手腕上的缩小版智能手机.另一个信息干扰源,而应帮助用户更好地活在当下,享受生命的真实和美好. 语音交互