阿里智能语音平台助力人机交互

摘要:在云栖大会上,天猫精灵幕后团队——人工智能实验室的聂再清为大家介绍了语音交互平台的运作机理和完善方法。在智能化普及程度逐渐加深的当代,人机交互也就成为了丞待解决的问题。为了解决这一难题,阿里巴巴的人工智能实验室对智能语音交互平台进行了深入研究和全面优化。

以下为精彩视频内容整理:
优化人机交互下阶段的目标

人机交互平台的发展经历了字符阶段、图像阶段、触屏阶段,而触屏阶段的普及在带来便利的同时营业产生了诸多不便,“低头族”的产生便是最好的证明。人类的需求是永不止步的,需要将人的眼睛拘束于操作界面的便利已不再是便利。语音操作系统可以让人们通过简单的发出指令来获取贴心的服务,使人们不再需要投入眼力和手力,所以智能语音交互平台的普及是必然的。

想要使智能语音交互平台更加地贴心,首先要解决的便是要让其拥有正确的理解能力,人工智能团队意识到了这个问题,并制定出了详细的计划。他们认为,革新人机交互方式是解决问题的有效途径。智能语音交互平台不仅仅需要计算能力,同时也需要知识、推理能力、行动能力、感知能力、甚至认知能力。使天猫精灵的智能语音交互平台拥有这些能力,便是人工智能实验室日后努力达成的目标。

需要解决的具体问题

天猫精灵的语音交互平台,作为行业的代表,已拥有许多贴心的功能来满足大众日常需求,而在满足大众需求的过程中,也发现了一些具体问题:

  1. 智能语音交互平台的推广需要各行各业的努力与合作。要想使智能语音交互平台更加深入大众的生活,为大家带来便利,就必须要做到生活中各个地方都可以运用它。例如点外卖就需要订餐软件或餐厅的合作,预订飞机票就需要旅游软件或航空公司的合作,查询天气就需要气象部门的合作等等。所以想要完善语音交互平台的功能,就必须获得各行各业的支持,这便是需要解决的问题之一。
  2. 语音交互的安全问题。例如当使用天猫精灵的客户需要完成支付口令时,由此带来的安全问题也是需要解决的。不能单纯地通过语音的内容便提供服务,也需确保服务于正确的人。为了辨别请求服务的人,实验室特别在天猫精灵的语音交互系统里添加了声纹识别功能,以此来确保将正确的服务给予正确的人。
  3. 自然语言的理解。这个问题是关键的,聂再清介绍了详细的解决方案。意图识别是天猫精灵提供服务的关键,必须由语音交互平台完成解析使用者语音指令的主要意图之后,才能进行正确的服务。以查询天气为例,客户发出查询天气的指令并不是统一的,但其表达的目的是唯一的,就是要查询天气。

交互平台需要有识别多种语句的能力,提取出客户要表达的正确意思,并且准确地执行,给客户正确的回复。这其中可能需要调用第三方的API,并且定下对话策略。指令的理解难点在于人说话的多意性和歧义性,而这两个特性起因在于人日常说话是很随性的。还是以查询天气为例,可以说“明天的天气怎么样”,“我想知道明天的天气”,“明天的风大不大”等等,而这些指令的意思却是同一种,那就是查询天气。语音交互平台需要有识别一种指令多种表达的能力,也要有能区分意思相近指令区别的能力。解决这些问题的途径,就是需要添加语料,这并不简单。

客户是不可控的,我们永远没法预测客户会以什么样的语言形式表达出一个指令。请专家或专业人员来解决这件事,代价是昂贵的,而问题又是必须解决的,所以提出了开发人员提供数据的解决方案,也就是自定义技能添加语料倒句和模板。具体方案为对语料等了解不深的开发人员,可以提供类似笑话集等数据;对语料略有了解的开发人员由部门提供语句,开发人员负责标注语料并添加;而关于涉及到客户隐私之类的语料不便于开发人员存储,以免泄密,所以由人工智能的记忆功能来解决。当客户的语料不明显或不存在时,平台将通过交互式构建可替换词词典和语料模板的方式,定于或发掘语料。具体来说,就是通过互联网查询指令中与网络库模板相近的语料,过滤无意义或者无用语料,提取语音不明语料并用明确的语料替代。这个操作需要建立可替代词词典并在日后的使用中逐渐完善这一词典。比如在客户使用时,提取客户语料后,将之与词典里的语料相匹配,当意义确实相同时,不但可以完成替代,还可以把客户的语料也加入词典。这种滚雪球的方式将会使词典越来越丰富,语音交互平台理解客户意思越来越准确和快速。

如何避免智能语音交互笨拙

在最后,聂再清又总结了自己对于如何避免智能语音交互笨拙的一些看法。第一是要做垂直应用,开发团队不要抱着能把所有问题都解决的想法,因为技术的先进程度还不足以实现,所以要专注于垂直应用;第二是用户的期待要符合实际,这就需要专业人员的讲解,告诉用户什么是可能的,避免客户期望值过高,失望过大;第三是知识图谱和用户画像,知识是正确使用语音交互平台的前提,而用户画像指的是对用户的了解,这对平台的正确应用也是必不可少的。如果语音交互的生态系统能招募广大开发者一同建造,那么显而易见的,系统的建成将会事半功倍。

人工智能是为了帮助人而设计的,而不是代替人,秉承这一理念,阿里将会继续努力普及人工智能,为人们带去便利。

时间: 2024-07-29 21:56:29

阿里智能语音平台助力人机交互的相关文章

荣威RX5与阿里智能语音的“修行”故事

以下为精彩视频内容整理: Ⅰ阿里智能语音交互团队的成果展示 阿里的智能算法团队是从2014年底正式开始起步的.3年的时间里,在商业及公共场所方面,团队做了有全国近300家法院已经投入使用的智能语音庭审产品.包括2016年杭州云栖大会等系列100多场大会的实时字幕语音产品.超过10家企业使用的节省70%人工审核成本的视频审核产品,还有使用时长超过1千万小时的智能语音客服机器人等产品:在用户方面,团队还做了NUI(Natural User Interface)自然交互平台系列产品,例如和海尔合作的海

金山云智能营销平台再升级,AI 投放助力游戏厂商精准到达;微医发布 AI 解决方案,提升县域医疗服务能力

微医发布互联网+AI云化解决方案,提升县域医疗服务能力 10月21日,第四届中国县域卫生发展论坛暨全国首届医联体建设大会在成都召开.会上,智能医疗云平台--微医发布了基于睿医云技术开发的"县域医联体云化解决方案",致力于以互联网+AI技术提升县域医联体服务能力和建设效率.来自全国1000多位县域医疗管理者及专家.学者共同见证了方案发布. 提升县域医疗服务能力是完善中国医疗服务体系.构建分级诊疗制度的关键之举.微医发布的"县域医联体云化解决方案",是基于睿医云大数据.

解析Amazon和Google语音平台之争的商业逻辑

编者按:本文来自微信公众号"将门创投"(ID:thejiangmen),作者赵德丽,曾就职于微软亚洲研究院.香港中文大学从事人工智能研究工作,曾任HTC高等算法研究组经理.乐视人工智能研发总监,现就职于小米:36氪经授权发布. 2017年国际消费类电子产品展览会(CES,International Consumer Electronics Show)落幕,亚马逊语音助手Alexa大出风头.参展的众多智能硬件设备都内嵌了Alexa语音功能,比如: 智能家居类:惠而浦家电.三星扫地机器人.

智能语音交互:阿里的研究和实践

云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲.本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出.   在众多的人工智能应用中,智能语音交互是大众能够最近距离接触到的一个.从几年前的手机语音助手,到近年来的互联网汽车.智能音箱.电视.IoT设备等,语音交互正以前所未有的深度和广度,融入雨后春笋般涌现的各种智能设备中.国内外各大互联网公司和众多初创企业都瞄准了智能语音交互这一重要领域,并视其为下一

阿里云智能语音交互技术实践干货分享

阿里云技术总监/研发总监陈一宁博士通过直播分享了<阿里云智能语音交互技术实践>.他首先介绍了智能语音面临的技术挑战,然后对智能语音技术做了详细介绍.其中,他主要分享了阿里云使用的BLSTM & LFR声学模型的优化过程,并对基于深度学习的自然语言理解的不同场景进行了详细分享.   以下内容根据直播视频整理而成.   阿里云智能语音概述 阿里云智能语音交互=语音+自然语言处理,语音包括语音识别.语音合成.声纹等,自然语言处理包括自然语言理解.对话系统.问答系统等.阿里云智能语音团队不是一

阿里初敏博士:解读智能语音如何在客服智能化上落地?

你是否对2016年云栖大会现场直播的实时字幕好奇?是否想了解语言方面的智能化怎样与客服相结合,怎样在客服智能化上落地?其实,收集数据是我们面临的最大挑战,这是时间.人力成本等的核算的问题.技术上,任何一个语言,包括英语.汉语.方言等等,难度差别并不多,识别相对简单,难点在数据. 传统客服模式不能满足业务需求 阿里最初开始做智能客服的时候是因为阿里自己的客服团队.公司业务规模很大,客服数量也非常大,到了一定的规模之后,就会发现整个客服的人力成本是高昂的.进一步说,很多时候靠增加人来解决问题已经变得

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

智能语音交互平台决战在即,创业者们的机会在哪儿?

本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事). 平台是很有意思的一种软件品类,先天具有过去很多产品所不具备的一些特质,比如彼此间的不相容性(也可以叫寡头性).非线性增长性等.这些特性也就注定了现在语音交互赛道上的各种平台早晚之间必有一战. 注意力过剩的语音交互赛道 很多人可能并没注意到纯以平台论,语音交互这个赛道已经足够拥挤.最先发的有百度 DuerOS,随后陆续跟进的有阿里的 Aligene 和腾讯的小微,最近发布的则有思必驰的 DUI 和京东的 Alpha,小

阿里云智能语音交互服务导览

阿里云智能语音交互 产品介绍 & 接口文档 阿里云iDST的智能语音交互服务主要有以下几个大类: 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出"能听"的应用. 语音合成服务TTS :将文字转换为声音的能力快速集成,打造出"会说"的应用. 自然语音处理NLU :集语义解析.智能问答.意图识别等功能于一体,让应用具备理解能力. 语音识别服务ASR: **在线 实时 短语音识别:一句话识别 支持流式和非流式的语音识别模式 应用模式: 语音输入法.语