与机器人对话! —— 初探语音智能交互

  我们经常能在科幻影片里能看到各种机器人与人类同台出演,与人类自由的沟通交流,甚至比人类更加聪明。大家肯定想知道这样的人造机器是如何做到的,我们现在真的能造出这样的机器人吗?

  开玩笑,我在这绝不可能解释好这个问题,但是从另一个角度简单来讲,与机器人交流其实这是通过语音来实现与机器交互,互动的一种操作,人与机器人的沟通其核心的一个方面便是语音的识别,就是说机器人得先听懂人说话。那此文就来浅聊下关于通过语音来实现人机交互的一些问题。

  我们先看一个较简单的例子 —— Windows语音识别程序:

  Windows语音识别功能主要是使用声音命令指挥你的电脑,实现离开键盘鼠标来实现人机交互。通过声音控制窗口、启动程序、在窗口之间切换,使用菜单和单击按钮等功能。Windows语音识别功能仅仅限于 Windows系统体系内的一些常用操作和指令,并且是与监视器显示辅助来完成整个语音操作。

  例如你想用语音通过主菜单打开某个程序,当你说出“开始”后,系统将会提供一个“显示编号”的区块划分功能,(编号是半透明的,使你能知道此编号下是哪个程序或文件夹)这样假如你想打开“下载”这个文件夹,你只需说出它的编号“10”,程序就会给你打开“下载”这个文件夹了。这样做的原因一是因为:如果你需要开启用户自行安装的纷繁复杂的程序,Windows的语音库里面可能没有这些程序相应的名称,会造成识别不准,甚至无法识别,二是通过显示编号,和语音识别编号,响应指令的效率更高,因此这样语音配合监视器的分模块显示大大的提高了用户使用Windows系统的效率和准确率。

  同样,如果你对桌面的快捷方式或文件进行语音操作,系统将会提供一个称之为“鼠标网络”的功能,对桌面进行以前区域的划分和自动编号,用语音+视觉来提高操作效率和识别的精准率:

  在目前Windows的语音识别程序中,除文本的语音输入(包括文字和符号)之外,还包括16个常用命令,9项常用控件命令,31项文本处理命令,15项窗口命令,5个点击屏幕任意位置命令,以及另外的几组键盘命令。用户所能语音指挥的也就是围绕这些预先准备好了的命令进行交互操作,旨在这将有可能提高使用电脑的效率,和尽可能的把双手从鼠标键盘上解放出来。

  与此初衷相类似的我们还能在目前主流的移动设备上能看到语音识别功能的应用:

  然后我们在前进一点,再想一下假如现在我们要面对的不是电脑,手机,而是一个机器人!一位拟人化,仿真化的机器人,对比上面的例子你会很容易发现它和常用的电子设备的不同之处在于,它很可能是不会有一个我们通常所见的显示屏,那以上那些通过语音指令结合屏幕可视化辅助来进行的高效的交互方式在机器人身上就收到了限制。在这种情况下你面对着机器人,你肯定会想它在听我说话吗?它能听懂我说话吗?我说什么它能听懂?我说什么它可能听不懂?等等这样一对问题会立即扑面而来。

  其实在我们现有的技术水平和条件下,特别是面向大众商用的机器人,想做到像电影里面那种人和机器人自由交流的情景几乎是不可能。当然我们做一个产品,当然会有功能定位和市场需求等等很多方面要考虑的,那我在这里讨论的是一台为用户提供各种咨询和能进行简单语音逻辑“聊天”的机器人,需要如何处理语音交互方面的问题,这里以Qrobot为例,尽可能不依赖电脑屏幕,而直接来与人互动和提供各种咨询的机器人。

  人是上帝创造的,而机器人是由人创造的,在现有知识和技术条件下,在人类赋予他特定的能力之前,机器人是什么也做不了的。下面我将分几点来讨论要想实现与机器人交互沟通需要做哪些工作:

  一,给机器人提供一个“大脑”—— 思想的材料:知识、语言库。像Qrobot这样提供各种海量咨询和交流操作功能的机器人,如果把所有的这些“原材料”堆在一堆,一旦你有求于它的时候,它可能会慌了手脚,不知所云。(机器人无法根据对话的前后关系以及语境来判断某一个词在当前情境下恰当的含义)因此我们先会把机器人的语音知识库进行分类,把不同类型和专业的词语库分开来,以提高机器人的工作效率和服务的准确度。那这样用户如需要获得哪方面的信息和功能,就要先让机器人“思维”进入相应的语言库中。比如你通过机器人来了解“音乐”方面的信息的时候,你需要让机器人进入音乐相关的“语库思维”中,那在这个情况下它会把你说的任何话当作“音乐”相关的内容或指令了。

  这里对比下苹果最近发布的iPhone 4s 的Siri,根据资料分析来看Siri是一个集中统一的语音分析处理中心,它通过监听用户语音,然后提取关键词来理解用户意图,(当然用户事先要知道iPhone能帮他做些什么)然后可能经过跟你确认,再触发相应的功能和服务。因此它最终提供功能咨询和服务来自于整个iPhone系统不论是本地Apps或是云端(网络APIs)已经准备整合好了的咨询信息及功能。这样的处理方式能使产品看起来更加的聪明和易用。

  当然除了被分区的专业语库外,机器人还得有个“正常人”的思维,即识别专业语言库以外的各种指令和普通对话,(上图的集成模式)否则的话它将只能是“机器”而无“人”了。

  二,Qrobot各分区之间的的转换以及从语音库分区回到“集成模式”除语音指令外,还需要假如非语音方式的的中间干预,这就涉及到触发监听和监听时机控制问题。

  从上图可以看到Windows的语音识别程序是通过一个浮动控制器开关来使机器听取你的指令与否。这里可以通过语音来让程序进取关闭状态,但是处于关闭状态则无法用语音来命令它重新启动了,这时候需要回到鼠标操作。

  iPhone的语音控制功能是通过触摸屏幕启动Siri程序后进入一个语音模式,在这个环境下用户才能使用语音操作手机和使用服务,如果退出Siri手机将不能听懂你任何声音。

  同样你不会让Qrobot机器人一直听你说话,或是你需要它提供某特定信息的时候如何让它迅速的进入相应的语音区域,高效准确的提供信息。机器人不可能用一只鼠标去操作,这里我们给机器人设计一个响应区和相应手势:
1,用触摸响应区域来控制机器人听或不听指令
2,用触摸响应区域+配合语音指令的复合方式来切换机器人的语音库
或使用特定规范的词语句来激发机器人进入或切换语音区来高效准确的获取信息。(同样也分以上两类指令)

  另外在不同的情况下,机器人听用户指令的状态也是不一样的,比如在“对话”状态下,机器人需要连续语音识别,这既基于情境需要同时也基于语音技术,而比如在功能操作或者咨询获取的以及机器人自己说话的时候并不需要连续语音识别,而是设置一个适当的语音监听时长,一旦超出这个监听时间,机器人则不进行识别,也不会造成误听和误操作。

  三,同一个话题的表达可能会有很多种表述方式,同样任何问题的答案也都不是单一的,因此第二个工作是需要让机器人能尽可能的听懂关于一件事情的各种不同表述方式,和让机器人响应你的请求或问题时每次会以不同的方式甚至情绪来表现出来(这样能让机器人显得更加的聪明和人性化)。

  如上图,由于语言的灵活性和丰富度,在语音库的配置上面就需要在输入和输出两方面做大量的工作,这包括本地(机器人内置存储空间)和云端两块。

  对一个指令的意思需要在语库中准备和配置好多种的语言表述方式,和可能的关键字词,以便在用户使用的各种表述方式的情况下都能准确的判断出指令的意图,来提供准确的反馈和服务。

  另一方面,当机器人理解了指令然后经过“大脑”处理之后把结果反馈给用户的时候,如上文所说,设计者不可能只有一份准备,如何既能让用户得到准确的信息,又能体现出机器人的“人情味”来,同样也需要做大量技术算法的储备和语句、关键字词准备配置工作等等,使每次输出既恰如其分,又灵活生动。

  由于目前我们日常能接触到的和能使用的语音交互产品不是很多,技术水平也还不能尽如人意。以上文字只从几个基础的方面浅浅的触碰了以语音识别为基础的交互及产品,那目前来说语音交互对使用者的价值可能体现在以下种情况:
1. 用户有视觉方面的损伤和缺陷
2. 用户肢体处于忙碌状态
3. 用户的眼睛被其它事情占用时
4. 需要灵活反应时
5. 在某些场合不方便使用键盘、鼠标等其它输入形式时

  但是语音交互形式相对于其它交互形式还是有其不足,比如与手指交互比,语音交互增加用户认知负担;语音交互容易受到外部噪音的干扰;还有遇到用户、环境等变化语音识别将会变的不稳定等等。我这里只是借Qrobot项目中涉及到的一些语音交互方面的问题,以简明直截了当的语言进行一下梳理和讨论,也非常欢迎对这领域有兴趣的同学来指点和讨论。

时间: 2024-11-01 18:09:27

与机器人对话! —— 初探语音智能交互的相关文章

与机器人对话:初探语音智能交互

我们经常能在科幻影片里能看到各种机器人与人类同台出演,与人类自由的沟通交流,甚至比人类更加聪明.大家肯定想知道这样的人造机器是如何做到的,我们现在真的能造出这样的机器人吗? 开玩笑,我在这绝不可能解释好这个问题,但是从另一个角度简单来讲,与机器人交流其实这是通过语音来实现与机器交互,互动的一种操作,人与机器人的沟通其核心的一个方面便是语音的识别,就是说机器人得先听懂人说话.那此文就来浅聊下关于通过语音来实现人机交互的一些问题. 我们先看一个较简单的例子 -- Windows语音识别程序: Win

蓦然认知 CEO 戴帅湘:对话式语音交互将无处不在 | CCF-GAIR 2017

雷锋网注:2017 年 7 月 7 日至 9 日,由中国计算机学会(CCF)主办.雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的 CCF-GAIR 全球人工智能与机器人峰会在深圳如期落地.会议第一天,国内外顶尖学者和从业者各自带来了丰富的行业干货分享,随后两天,GAIR 的机器人.智能助手.金融科技.AI+.智能驾驶等各个专场又为各领域从业者提供了密切交流和学习的机会. 蓦然认知是近两年在自然语言理解方面表现最为抢眼的公司之一,其扎实的语义理解技术已经为暴风 TV.上汽大通.VINCI 等

专注语音 云知声开全智能交互之先河

中介交易 SEO诊断 淘宝客 云主机 技术大厅 4月12日下午,北京,由云知声主办的主题为开启全智能交互的新纪元活动圆满落下帷幕.活动重要议程之一:由云知声牵头主导的国内首个全智能交互联盟正式在京成立,首批联盟成员除云知声外,还包括语义理解技术公司哦啦.图像识别技术公司亮风台.人脸识别技术公司Face++++,作为首批联盟成员的四家企业CEO也在活动现场分别表达了对全智能交互的期待和鼎力支持. 云知声CEO黄伟 科幻片里的智能交互场景逐渐成为现实 活动开场,由云知声CEO黄伟带来的题为<智能交互

演讲稿丨梁家恩 物联网智能交互与服务

       各位老师.各位嘉宾,大家下午好.今天非常容幸能参加这个会,作为人工智能界的一个晚辈,包括在市场上的创业公司,今天跟李院士还有各位世界级的专家一起分享压力非常大,也非常容幸.我们其实是跟陈博士比较类似的,我的背景是中科大毕业的,后来在中科院待十年的时间.四年前我们在2012年决定,因为我觉得人工智能产业是一个秀才的团队,大家基本上都是博士,至少也是硕士以上的学历.我们当时也是从做研究开始走到人工智能创业场上,相信用我们的技术能力去改变一下这个世界.        我今天做这个分享的,

中国人工智能学会通讯——智能交互开启未来

我讲的内容可能跟刘博士有一部分是重复的.因为之前我们一直做语义理解,语音识别厂商一直在做语音,后来大家发现它们密不可分,所以一直在融合.我们现在在找语音方面的一些合作伙伴,语音厂商也往语义方面去做. 人工智能,对于普通的群众来说就是变形金刚,就是终结者.可是在产业界,我们就会想到自动驾驶,还有机器识别,还有类似的智能交互,还有AlphaGO.人工智能其实不是全能的,只是在某一个方向.某一个方面去解决一定的问题.我们怎么去定义人工智能?现在人工智能没有一个非常明确的定义,没有非常明确官方的定义,因

搜索正在进入“灵动”时代智能交互未来

前天,<星际穿越>在上海试片,该片和<三体>的相似度让部分观众开玩笑称:"诺兰在拍摄<星际穿越>时是不是已经提前看了<三体>."不少"三体粉"表示,<星际穿越>中有关于虫洞的描述,尤其是多维空间的展开,与刘慈欣在<三体>中的观点有异曲同工之处,满足了大家对维度.时空.太空的一切想象."当大屏幕上的影像跟以前读三体小说时大脑中幻想的景象几乎一致时,那种感觉就像遇到了多年不见的初恋.&qu

教你如何与网易POPO机器人对话

网易POPO近期推出了一项POPO知识有奖竞答活动,只要回答对20个问题就有机会中奖, 网友们可以前去试试.但与POPO机器人 对话,必须用一些指令才能让系统识别,以下提供与POPO机器人对话的方法. 第一步:运行POPO,进入嘉宾聊天室 点击POPO面板中嘉宾聊天室标签,即标记 (1)处,即可切换到嘉宾聊天室面板:之后点击相应聊天室区域"了解POPO赢取大礼,这个夏天让你一箭双雕"即标记(2)处进入. 图1 选择标记中的机器人开始聊天 第二步:设定与机器人对话 进入聊天室后,点击下图

中国人工智能学会通讯——机器人组件技术在智能制造系统中的应用

摘要:随着工业4.0时代的到来,如何将传统工厂改造成为个性化.网络化.柔性生产的智能制造系统成为了当前的研究热点.本文从智能制造系统和智能机器人系统的相似性出发,构建了基于机器人组件技术的智能制造系统,对智能制造系统中各个生产单元进行组件化技术封装,实现了生产组件之间的信息互联和即插即用,通过个性化订单要求对各生产组件在线任务规划,达到柔性生产的目标.此外用多异构机器人模拟各工位生产单位搭建了一个可以根据用户订单生产的小型智能制造实验平台,实验结果验证了本研究构建系统的可行性. 关键词:机器人组

短信已经落伍 盖茨倡导语音的交互

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 近日,有消息称微软创始人比尔·盖茨将从明年开始他在微软的兼职工作,而他还将继续研究他所倡导的"自然计算机交互方式",用声音.触摸来控制电脑和他人交流.盖茨为人类进步做出了巨大贡献,的确值得所有人尊敬.谈到人与人的交互方式,笔者想到了我们每天都在使用的短信,现在的短信主要有普通文字短信和彩信,那么这两种短信能否称作是自然的交