智能语音之殇:我们为什么还不能和手机交谈

  四十多年前,专家们曾宣称,语音识别将在“五到十年内”发展为一项成熟的技术。可多年过后,他们依然重复着一模一样的说辞。

  语音识别的发展确实费了不少工夫——好在,时隔多年以后,我们总算开发出了一套质量过硬的识别技术。不仅如此,我们还把这玩意应用到了移动设备上(尽管还得靠服务器提供一大堆">技术支持)。

  然后问题就来了——有了这样的技术,我们为什么还是得整天瞅着自己的手机屏幕鼓捣来鼓捣去,却无法直接开口跟自己的手机对话交谈?

  回答这个问题的关键,在于提供一个语音交互界面,远比理解一打单词来得复杂——尤其是对手机而言。我们还必须得理解用户的“意图”。要知道,除了语音技术本身以外,人机语音交流中还有其他因素在作怪——输出方式,互动形式还有语境。

  多元化的输出:既能秀,也能说

  如今投入使用的语音系统,识别的效果一般都过于极端化——要么一字不差,要么谬以千里。事实上,当我们查询一条去某大街的路线时,要是系统能精确无误地从数据库的上千个条目中识别出我们想要的那一条,还是挺令人称奇的。不幸的是,如果识别有误或者街名不准,我们的搜索就只能乖乖从头再来。

  要想在现有的语音技术上有所突破,我们必须得认识到一点:我们现有的系统,不过就是最原始的识别技术而已——识别技术本身没啥问题;但除了这套技术以外,我们的系统只是一个空壳罢了。而我们需要的,其实是创造一个语音交互界面——说白了,就是一整套基于语音的互动模式。

  理解用户的“意图”,意味着系统要判断出用户真正需要的事物,而这通常得依靠交谈来实现。这就是说,系统要了解用户为什么问这个问题——一般来说,这就要求系统去知晓对方在做什么;与此同时,这也要求系统根据用户所处的情形合理应答。这可决不是一项轻松的任务——毕竟,用户只是把移动设备握在手中而已,他们可能有着大把的事情,要忙着分神去处理。

  互动是一种双向的沟通,意味着我们在提供输入的同时还得留意输出;而这些能发声的应用是怎么回答我们的呢?最常见的方式,是直接向用户回复他们所想要的信息。那些提供实时驾驶指南的“杀手级应用”就是个典型的例子:用户双眼注视路况,双手把好方向盘,然后严格按照语音提示说的做就行——这种情况下,这样的应答方式也确实管用。

  但另一些时候,这招就不那么灵了。比如,当我们询问下班公交什么时候到站时,让系统自顾自地把整张时刻表背下来就是个不折不扣的馊主意。即使它只是回复一句“下班车9点12分到站”,效果也好不到哪去——这时候,说“下班车12分钟内到站”才是王道。

  这其中的关键在于,语音只是瞬时性的——一句话,说完就完了。要是我们一时不小心分神了,或者一下子没来得及把消息印到脑子里,我们就得再问一遍。说不定还得问上一遍又一遍。

  这就是我们不应该抛弃用户界面的原因:它好歹能帮我们少占用一些记忆容量。未来的语音技术所迫切需要的,是多元化的输出:既能秀,也能说。举个例子,如果我正忙着赶路的话,何不让移动设备既在屏幕上给我秀一下时刻表,也在耳边跟我说一声“下班车12分钟后到站”?

  理解背后的“意图”

  这也引出了未来的语音技术所需的第三个,也是最重要的一个因素:语境。人们的对话里包含着丰富的语境信息:词汇表达的意思,代词指代的对象,还有那些被重读的单词。这其中牵涉到一系列细微的语言模式(心理语言学家赫伯·克拉克称其为“定位”),使得一句像“你懂了没?”这样的短问句,就足以暗示一段微妙、共有的经历——因为对话中的另一方清楚你所暗指的是什么。

  而这些语境,正是手机可以大展身手的场合,尤其是考虑到语音技术发展的现状与未来的话:手机知道它自己身处何处;它能够识记我在不在上班、在哪里上班;它清楚我都跟谁打过电话,谁是对我更重要的人。

  如果我用的是清一色的安卓或者iOS应用的话,手机还能掌握我的邮件信息、日程安排,还有我的兴趣爱好。于是,当我问“公交是几点来着?”的时候,手机就会听懂我说的是哪趟车、哪一站、哪个方向,甚至还包括我要将花多久才能赶到车站。事实上,说不定在我发问之前,手机里的闹钟就会自动响起,提醒我该起身出门赶车去了,还能顺带一句“别忘带雨伞哦”——就像一个称职的管家一样。

  对语境的分析,不仅有助于我们理解一词一句,更能帮我们理解其背后的“意图”。尽管在一些手机应用中,我们多多少少已经体验到了这些功能;但就语音而言,相关技术还远未成熟。至少目前看来还言之尚早。毕竟,我们不能忽视社会因素的影响:在公共场合,我们未必会和手机“交谈”,可能是因为我们不想打扰他人,也可能是因为我们不愿暴露隐私。

  但事情总是在变化的。我是美国最早用上第一代手机(摩托罗拉MicroTac)的人之一。当年我打着大哥大走在马路上的时候,周围的人看我就像看个疯子一样——即使是在MIT这样遍地技术狂的校园里也毫不例外。而现在,看到那些戴着蓝牙耳机自顾自聊天的路人,我们都已经见怪不怪了——要知道,从前这可都是疯子的标志呢。

时间: 2024-10-18 06:57:52

智能语音之殇:我们为什么还不能和手机交谈的相关文章

中国人工智能学会通讯——智能语音技术与产业应用展望 1.2 智能语音产业应用的现状和挑战

1.2 智能语音产业应用的现状和挑战 智能语音产业应用,基本上都是从语音控制.语音识别和语音交互作为切入点建立起来的,根据不同的定位和形态,目前主要分为以下4类. (1)APP类纯软语音应用.如Apple Siri和Microsoft Cortana等,在手机.平板或PC上以软件方式解决操作和聊天等问题,内置各种搜索.问答和对话服务. (2)软硬一体的语音交互应用.如智能音箱Amazon Echo.智能电视.智能语音空调等应用,语音成为主要交互手段,实现控制和相关内容服务获取. (3)垂直领域的

揭秘阿里巴巴智能语音交互技术

当一个产品经理在规划产品中的语音功能时,在大多数情况下,他需要的不仅仅是语音识别,还需要其背后的智能交互--理解问题.回答问题.在需要的时候发问.能根据用户回答决策等. 阿里云智能语音交互,就是这样的一款产品.它基于语音和自然语言技术构建的在线服务,为开发者在产品中提供"能听.会说.懂你"式的智能人机交互体验. 阿里云智能语音交互背后实际上包含三个层次技术:语音技术.智能化技术和大数据技术. 语音技术: 语音识别(ASR)--把人讲的话转成文字 语音合成(TTS)--把文字说出来 声纹

智能语音交互:阿里的研究和实践

云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲.本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出.   在众多的人工智能应用中,智能语音交互是大众能够最近距离接触到的一个.从几年前的手机语音助手,到近年来的互联网汽车.智能音箱.电视.IoT设备等,语音交互正以前所未有的深度和广度,融入雨后春笋般涌现的各种智能设备中.国内外各大互联网公司和众多初创企业都瞄准了智能语音交互这一重要领域,并视其为下一

AI与大众最近的接触——智能语音交互

互联网的变迁过程 互联网的变迁主要体现在内容.入口.人机界面三个方面. 互联网内容的变迁 图一 互联网内容的变迁 时至今日,互联网的内容已经发生了很多变迁,早期的互联网以获取信息为主,例如人们通过Email收发信息.在BBS上灌水.通过门户网站了解新闻等等.阿里巴巴的起点也是从Alibaba.com开始,最初仅是为国外买家获取信息.购买国内供应商的产品起到牵线搭桥的作用. 随着网络的发展,互联网不仅仅再局限于获取信息,消费者逐渐可以通过淘宝.天猫.聚划算等网站购买生活必须品:现在,除了提供信息和

盘点智能语音行业:Nuance没落 BAT围绕核心业务

随着人工智能浪潮的来临,以及物联网场景下应用需求的不断扩大,智能语音技术在智能家居.智能汽车.教育等领域的应用逐步深入,带动着智能语音产业规模的持续快速增长.再加上"互联网女皇"玛丽·米克尔在报告中大篇章的描述语音识别交互带来的改变,今天借着这股智能语音之风,让我们盘点一下现如今国内外智能语音行业的发展现状. 国外巨头盘点: Nuance没落.亚马逊Google布局智能家居 Nuance 提及语音识别,就不能不说Nuance, Nuance有着辉煌的历史,曾经在语音领域一统江湖.虽然一

阿里初敏博士:解读智能语音如何在客服智能化上落地?

你是否对2016年云栖大会现场直播的实时字幕好奇?是否想了解语言方面的智能化怎样与客服相结合,怎样在客服智能化上落地?其实,收集数据是我们面临的最大挑战,这是时间.人力成本等的核算的问题.技术上,任何一个语言,包括英语.汉语.方言等等,难度差别并不多,识别相对简单,难点在数据. 传统客服模式不能满足业务需求 阿里最初开始做智能客服的时候是因为阿里自己的客服团队.公司业务规模很大,客服数量也非常大,到了一定的规模之后,就会发现整个客服的人力成本是高昂的.进一步说,很多时候靠增加人来解决问题已经变得

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

智能语音在呼叫领域应用广泛 但在“+”之后更精彩

技术发展的关键在于落地,"语音"作为目前人工智能领域落地最为成熟的技术,以准确率可达95%以上的识别水平,已经逐渐步入商业化阶段.而语音交互的实现主要取决于两点:语音识别及语义理解. 智能语音在呼叫领域应用广泛 但在"+"之后更精彩 图片来源:百度文库 目前中国智能语音市场被科大讯飞.百度和苹果占据绝大多数市场份额,2015年三家合计达79%.其中,科大讯飞市场份额为44.2%,处于市场领先地位.百度进入势头强劲,市场份额增长快速. 一.智能语音:谈入口太早,但不可

NLP工程师技术解读:智能语音助理类产品的未来在哪里?

雷锋网按:本文作者李超,出门问问NLP工程师.文中的所有观点系作者个人观点,不代表出门问问公司的立场.雷锋网(公众号:雷锋网)独家文章. 最近AI热火烧遍全国,语音智能助理是热中之热.各大公司不断加大了对这方面的投入,做垂直或者通用领域的初创团队也如雨后春笋般涌现,竞争非常激烈,不少业内人士认为智能助理将替代APP,成为新的交互方式.也有不少同行对目前的情况进行反思,认为智能助理产品非常不成熟,将会是过眼云烟. 这里也探讨下个人对智能助理产品技术的一点认识.   <为什么现在的人工智能助理都像人