互联网的变迁过程
互联网的变迁主要体现在内容、入口、人机界面三个方面。
互联网内容的变迁
图一 互联网内容的变迁
时至今日,互联网的内容已经发生了很多变迁,早期的互联网以获取信息为主,例如人们通过Email收发信息、在BBS上灌水、通过门户网站了解新闻等等。阿里巴巴的起点也是从Alibaba.com开始,最初仅是为国外买家获取信息、购买国内供应商的产品起到牵线搭桥的作用。
随着网络的发展,互联网不仅仅再局限于获取信息,消费者逐渐可以通过淘宝、天猫、聚划算等网站购买生活必须品;现在,除了提供信息和商品之外,互联网上涌现了大量的服务,例如阿里旅行、饿了么等服务丰富便捷了日常生活。
互联网入口的变迁
图二 互联网入口的变迁
PC端是互联网最早的入口,从1999年72小时网络生存挑战中拨号上网到ADSL再到光纤到户都是属于有线的方式;随着无线技术的发展,智能手机和手持设备逐步成为互联网的主要入口,在2015年“双十一”活动中,无线占比近70%。
人机界面的变迁
图三 人机界面的变迁
最初的计算机指令是通过人工纸带输入,然后计算机返回计算结果,人机之间不存在任何交互。最基本交互是在命令行界面出现后产生,用户通过命令行或脚本输入命令后,计算机给予相应的反馈。目前,图形界面是人机交互主要方式,通过桌面、图标、窗口实现人机之间多样化的交互。
What Next?
图四 今后的发展趋势
未来互联网的发展趋势主要体现在以下几个方面:
- 互联网内容向获取个性化服务变迁:传统地从互联网得到的内容是共性的,所有人获取的内容大都相似,随着互联网的发展,您所喜欢的音乐、视频、头条等个性化内容会直接通过终端送到你手里。
- 互联网入口向智能硬件变迁:互联网的入口不再局限于手机、PAD和PC端,TV、车机、音箱、可穿戴设备、IoT、机器人等等设备都有可能成为互联网的入口。
- 人机界面向自然用户界面变迁:语音交互和动作手势等自然用户界面将会超越鼠标加触摸屏的人机界面。
语音交互是NUI最自然的模式
图五 语音交互是NUI最自然的模式
之所以说语音交互是NUI最自然的模式,是因为它无需学习,各个年龄段的用户都可以轻松使用。此外,使用时无需手眼的介入,是一种很自然的人与人之间的交流。语言交互已从当初科幻电影成为现在的大众科技,例如我们所熟悉的Apple Siri / Microsoft Cortana / Amazon Alexa。
图六 语音交互是AI与大众最近的接触
使用者能够与机器进行的自然语音交互,完全得益于人工智能近年来的突破性进展,上面的折线图显示的是语音识别的错误率随年代变化的趋势,红色线条(表示难度较大的任务)从2000年开始,十年间曲线一直很平,在2012年,随着微软研发人员将学术界的深度学习等方法应用于工业界,语音识别领域率先取得了非常大的突破,错误率直接下降到10%左右,今天,在电话等较难的语音识别场景中,错误率甚至可以降低到8%左右。
智能语音交互的具体进展
图七 智能语音交互的具体发展
在语音识别领域,有三点较为重要:第一是数据闭环,数据闭环使得我们可以在用户大量的使用当中去收集到真正的数据,然后利用这些数据进行学习,帮助我们的系统进行演进;第二是深度学习带来的突破;第三是运算存储能力,阿里云的海量计算和存储能力支撑了语音识别中的复杂计算。
在语音合成方面,从最开始的逐字拼接到现在基于统计的机器学习的语音合成一直在不断地发展。自然语言处理方面,归功于工业界和学术界的研究进展,今天可以使用一个连续的空间来表达语义,基于此,演进了很多统计学习的自然语言处理技术。
智能语音交互@阿里云
图八 阿里云在智能语音交互方面的布局
阿里云在2014年底开始做智能语音交互,一方面构建基础能力用于服务内部用户;另一方面将该能力输出,构建生态体系,服务外部用户。经过一年多的发展,在阿里的生态体系中,自然语音交互无处不在,例如在手淘中,既可以使用图像搜索商品也可以用语音搜索商品。
图九 阿里云语音能力支撑内部需求
语音识别改造客服呼叫中心是阿里云语音能力支撑内部需求一个典型案例。阿里巴巴集团和蚂蚁金服客服呼叫中心每天的话务量非常大,每天有着数十万通电话和数万小时的通话数据。因此用工量也就非常大,常年需要成千上万规模自营+外包小二,尤其在双十一期间,需求陡增。
图十 传统客服中心IVR业务
上图所示的传统客服中心的IVR业务流程,该流程的带来的挑战包括:效率不高,用户体验欠佳;同时缺乏有效反馈,难以保证服务质量;此外,该流程随着业务的发展可扩展性差。
图十一 阿里内部的尝试
阿里内部的尝试主要体现在以下三个方面:
- 沉淀客服通话数据:通过自动语音识别,将对话转写为文本,为后续机器学习奠定基础;
- 全量自动质量控制:扫描小二的每通电话,检测基本服务质量,同时对问题进行定位质检,提升问题解答的一致性;
- 问答机器人前置:使用机器人通过对话自动识别用户问题,提升自助渠道解决率。
图十二 智能语音交互赋能阿里云客户
互联网的急速变革和人工智能的突破性进展催生了新的人机交互模式。随着互联网内容、入口、人机界面的变迁,智能语音交互的技术门槛已大大降低,但将语音交互做到极致并持续进化仍然需要大量人力物力;同时,普适语音交互体验与高可定制的个性化体验既有矛盾又有统一。
因此,为了完成上述目标,阿里云联合YunOS正在开发阿里NUI自然交互平台。
NUI自然交互平台
图十三 NUI自然交互平台
NUI自然交互平台是自然交互行为与互联网服务之间的桥梁,它上接各式各样的数据服务,如音乐、视频、美食等等;下接多端落地,包括传统的手机、IoT、电视、机器人等设备。它所做的事情是完成用户交互到意图的转换。因此,该平台需要具有视觉、听觉、语音合成,此外还需要具有意图理解、对话管理、问答系统、聊天系统、推荐广告、数据闭环的能力。后续还可通过不断拓展自己的能力,支持更多的交互模式。
同时,依托阿里云和YunOS,开发者能够在该平台上开发出独特的、个性化的语音交互的体验。
图十四 NUI自然交互平台的功能
NUI自然交互平台的愿景是提供水电煤一样的自然交互核心能力和共性体验,降低开发门槛、提高开发效率,同时帮助生态内合作伙伴专注于业务本身及个性体验。此外,该平台还提供了落地与跨端一致性体验以及丰富、可扩展的数据与服务。
图十五 NUI自然交互平台的多维度
目前,各大公司在NUI自然交互平台纷纷布局,如Amazon Alexa 、 Apple Siri 、 Facebook M 、Google Now 、 Microsoft Cortana、 百度度秘等等。观察一个自然交互平台应该从操作系统、服务模式、端、云、服务接入、开发者支持等多个维度出发。
- 操作系统方面,并非每一个自然交互平台都具有自己的操作系统,但自有的操作系统可以和NUI交互能力融为一体,大大提高了用户体验;
- 智能服务的模式,不仅仅“迷信”于AI,注重AI+真人的结合;
- 端方面,是否仅是APP支持,还是允许三方设备的接入甚至是芯片级解决方案支持;
- 云方面,是否有云计算和数据闭环支持;
- 服务接入方面,是否仅支持自有服务,还是允许第三方服务接入
- 开发者支持方面,是否对开发者开放、可定制化程度高低。
图十六 国际主流NUI自然交互平台现状
国际主流NUI自然交互平台从各个维度进行切入,各平台各具特色,在未来,将逐渐趋同,但是在这个过程中,云、端、操作系统等核心能力将决定NUI自然交互平台未来的最终和成败与否。
图十七 阿里巴巴在相关领域的投入
阿里巴巴在NUI自然交互平台领域有着相当大的投入:
- 操作系统方面,阿里2011年推出的YunOS,目前已成为世界第三移动操作系统;
- 端方面,阿里目前推出的YunOS手机、天猫魔盒、互联网汽车、Pepper等等设备都支持NUI自然交互平台的接入;
- 云方面,2009成立的阿里云,现在是全球领先的云计算服务平台,目前正大力投入人工智能与“云数据+大计算”;
- 服务接入方面:目前不仅支持阿里生态中淘宝天猫、高德、虾米音乐、优酷土豆、到家、饿了么等阿里内部服务,同时支持第三方服务接入;
- 开发者支持方面,阿里一直致力打造开放的第三方开发者服务,阿里云也尤其强调生态的重要性。
总结
互联网内容、入口、人机界面的变迁使得NUI自然用户界面变得前所未有的重要,同时核心技术突破使得智能语音交互迎来真正的爆发,进入寻常百姓家。
阿里巴巴在NUI智能语音交互方面的投入力度相当大,不仅服务阿里内部需求,同时致力于服务外部客户,构建起完整的生态体系。
本文根据阿里云iDST语音技术总监鄢志杰在8月9日举办的2016云栖大会·北京峰会上的《智能语音交互:AI与大众最近的接触》演讲整理而成。