蓦然认知 CEO 戴帅湘:对话式语音交互将无处不在 | CCF-GAIR 2017

雷锋网注:2017 年 7 月 7 日至 9 日,由中国计算机学会(CCF)主办、雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的
CCF-GAIR 全球人工智能与机器人峰会在深圳如期落地。会议第一天,国内外顶尖学者和从业者各自带来了丰富的行业干货分享,随后两天,GAIR
的机器人、智能助手、金融科技、AI+、智能驾驶等各个专场又为各领域从业者提供了密切交流和学习的机会。

蓦然认知是近两年在自然语言理解方面表现最为抢眼的公司之一,其扎实的语义理解技术已经为暴风
TV、上汽大通、VINCI 等企业提供了成熟的语音助手解决方案。创始人兼 CEO 戴帅湘曾在百度从事 9 年的自然语音理解,任百度 NLP
主任架构师,并曾带领团队获得百度语义最高奖。

在 CCF-GAIR 大会智能助手专场,戴帅湘做了《对话即应用》的主题演讲,雷锋网对其内容进行了整理,以下为演讲全文:

我今天分享的主题是“对话即应用”,很多人认为这是遥远的未来,事实上它有可能就在我们眼前。

未来只存在于我们的脑海中,是虚构的,但是人天生向往未来。这是人的本性,写在我们的基因里。

“人是为了想象而活着”,我觉得这句话没有错,但是“当未来已来,过去也没有过去”的时候,在时空转换的间隙里,我们的认知和想象怎么调整?

以互联网发展为例,人机交互在互联网发展中扮演了非常关键的角色。每一次人机交互的革新都必然带来革命性的浪潮。

20 年前,互联网刚开始普及,我们使用键盘、鼠标来操作互联网,这种应用形态很简单,无非就是网页。

大概 10 年以后,到 2007 年,乔布斯发布了具有划时代意义的产品:第一代 iPhone。它完全摒弃了之前的键盘操作,使用了全触摸屏的操作方式,这种转变直接导致当时的两大手机巨头在此后短短几年内迅速衰落,直至退出市场。

这种变化同时带来了应用形态的变化——从之前的 Web 程序开发,迅速转入 APP 程序开发,这种变化也导致互联网时代几大巨头在此后 10 年间逐步衰落。

又过了 10 年,到今天,一个新的时代正在来临。刚才几位也讲到,现在大大小小的公司都开始做音响,音响是否是很好的产品暂时还没有定论,但我们却可以感觉到身边越来越多的硬件开始联网,大家称之为“万物互联”的时代。

《人类简史》里有一个观点:人本身不具有大规模合作的基因,需要语言和文字来弥补。我们今天制造这么多设备,要想让它们真正和人类大规模合作,对话式语音交互必不可少,也必定会成为主流。我相信在未来的 IoT 时代,语音交互将跨越软件和硬件的边界,在不同的场景下,呈现不同的应用和服务,也就是对话即应用。

即便很多人现在对这个东西还没有概念,但是思考一下,你就会发现这是一个了不起的时代。我们不愿意错过这个时代,所以成立了一家公司,叫做蓦然认知。我们致力于让机器认知世界,认知计算,以自然语言理解为核心,提供信号处理、语音、语义、服务自动对接、一站式自动交互的解决方案,更简单地说,它就是以语义理解为核心的决策引擎,是搜索引擎的下一代。

作为一家创业公司,不管做什么,首先要有准确的市场定位和切入点。对于蓦然来说,我们最先落地和打造的交互场景有家居和车载两大类,这两大类可以合为一个完整的整体。

家居场景:以电视为切入口

为什么选择家居场景?有几个理由:

  • 家是休闲和放松的场所,我们希望在家里享受后仰式服务,而不是前倾式服务;
  • 家是吃饭,甚至购物的场所,越来越多的人不出家门,从网上购买生活用品。比如吃,你可以不会做饭,但你可能需要获取做饭的信息,可能需要知道提供外卖、团购的餐厅信息。这些信息都可以通过更好的交互方式来提供;
  • 家里的设备越来越多,除了传统的几件,现在又有音响、洗碗机、扫地机器人等,如果想要更好地了解、使用这些设备,需要集中式的交互入口,做集中式控制和使用,这是很自然的方式。

针对这三点,我们设计了三类交互方式:

  • 基于视频内容的交互,主要是针对电视。我们最先是和暴风 TV 合作,刘总(暴风 TV CEO 刘耀平)后面会做具体讲解;
  • 基于生活服务的交互,比如外卖、咖啡、电影票、火车票、飞机票等,都可以通过连续对话来解决;
  • 智能设备控制的交互,这个在技术上比较简单,主要问题在于现在各大厂商的协议不是那么统一。

车载场景:最适合语音交互的场景

现在业界基本达成的一个共识是,车载是最适合对话式语音交互的场景,原因主要有两点:

  • 人开车时双手、双脚都是被占用的。可能大家经常在报道上看到,女司机怎样怎样......很多人容易被车驾驭,而不是驾驭车,这是很危险的行为;
  • 人在车里的时间越来越长,可能有拥堵的原因,也可能因为人们更喜欢私密的自驾行为。这是完整、连续的时间,而不是碎片化的,充分利用这个时间,用合适的方式和车交互,会给用户带来完全不一样的体验。

车载场景里,交互设计有些差别,行车过程中需要考察路线规划,自动导航,即时通讯,实时路况等,除此之外,我们会更关注行车目的,这对交互会有很大影响。比如你开车去餐厅,我们会给你提供餐厅信息查询、订座服务,如果去机场,就提供机场航班延误信息,甚至可以买机票,如果去商场,就可以查询附近停车位和停车预定服务,当然这些现在只有少数大城市才会有。总之,目的地在车载交互中非常重要。

这两种场景是生活中非常重要的两大场景,但可以通过我们整体的系统,成为一个 mall,从而融合成更大的场景。而要融合如此多功能的场景,需要各种场景间的自由切换,这个过程要有非常复杂的语音交互或者对话式语音交互才能完成。

对话式语音交互是多种技术融合的必然结果。下面我从不同角度来阐述涉及对话语音交互的各个层面:

VUI 和 GUI 融合

GUI 本身是一种确定的、简单的、没有后效性的操作;VUI 是发散的、跳跃的,相对模糊,但是可以完成复杂任务的操作。GUI 是让我们适应机器,VUI 是让机器适应我们。只有两者有机结合在一起,对话式交互系统才能发挥作用。什么效率最高,我们就用什么,摇控器效率最高,就用摇控器,语音搜索最方便就用语音。下单和选择过程,其实是非常融合的过程。

多场景融合

大家多数时候听到的是把垂直场景做深,我觉得这不是根本的。高频场景的确可以快速覆盖,但是真正有效的是长尾场景。对话过程中只满足高频没有意义,只有长尾融合在一起,让用户感受到服务需求在各个地方得到满足,才有可能成为很有效的交互方式。

设备间的协同

刚才讲到,单一设备里必须有多场景的融合,这之间的融合怎么做?例如,天气很热,我开车回家前,想把家里的空调调到 24 度,走廊的灯打开,这是日常生活中很自然的需求。按照现在的很多框架,实现这些会非常复杂,但是植入我们的系统以后,车机和家庭设备就可以自然融合,和一个设备一样。我们要为用户营造不同设备之间迁移、无缝连接、包裹式的经验。这比多场景融合更容易实现。

知识和服务的融合

大家看到我们谈论多轮交互和单轮交互,但在我看来,并没有什么单轮对话的存在。语音早期的应用集中在控制、开灯、关灯、调音量这些方面,它们的输入方式不是对话,而是输入法。真正有用的对话是双向的,系统理解以后做适当的动作,不理解的话就做推荐动作或反问动作、澄清动作,这样才能形成完整的、任务式的、有目的的、优化的对话,而不是随意的。

比如,你今天晚上想看电影,可能会说今天要去的某个电影院、某场电影、某个名字,但这样说的人太少,系统顺利完成任务的概率很低。你有目标,但是不确定怎么达到这个目标,这时交互式对话会引导你到另外一步,比如电影系统会给出最近在上映的电影,然后基于个人爱好给出合适的推荐;等做完选择后,你还得注意,电影院在哪里,自己在哪里,你们之间的关系是不是能让你快速抵达电影院?所有这些完成以后,你还有一个步骤,就是决定要几个人去,这个要定做,不是我们预先定义的。多轮对话的目的是目标不变,但可以打乱所有步骤,这是知识和服务的融合,是可以做到的。我们现在做得很好。

技术的融合

AI 本质上是技术的集合体,不是单一的模型,也不是单一的方法,而是多项关键技术的融合。

决策引擎中有三类,一是认知计算模型,主要针对知识推理建模。知识推理方面,机器在学术和工程上都可以做得比较好。二是正确理解,针对语义建模,还没有定论,但是可以做,我们现在做得也比较好。三是内容学习,这是大家拼命想做的,深度学习和各种 DNN 结构等。

对对话式交互来说,你可能没有大量数据,连数据的序列都没有办法定义。怎么拿到数据?学习很重要。对问题建模,提出自己的独特方法,解决小数据建模的问题,这非常重要。当所有一切都可以运作的时候,再采用深度增强学习,我觉得这是可行的。AI 里面很早就提到增强学习是实现自主学习的有效途径。

要打造完整的对话式语音交互系统,涉及到完整的环,最下层还会涉及到信号处理。陈总(声智科技
CEO
陈孝良)讲了很长时间信号处理和硬件、芯片的关系。上面一层是语音和文字之间怎么相互转化,语音识别现在相对也已经比较成熟。再上面一层,现在简称为语义理解,但实际要比这个复杂很多,真的要打造这个系统还需要往前走很多步:语义理解,对话系统,学习系统,自动服务对接......自动服务对接的目的是使场景快速迁移,服务快速上线,作为一个实用系统来说,它非常重要,但很少被提及。

最后是语言的生成。

我们公司的核心业务是第三部分,但是我们和各个公司合作,对整个闭环都有完整的解决方案,包括和陈总在信号处理方面的合作。

这是一个相对详细的技术方案展示(上图),黄色部分是我们现在能提供的几大类,云服务、语义、语音和设备控制,然后在设备端会以不同形态植入不同程序,以便于驱动设备和人进行流畅对话。

所有这些融合的技术方案,目的只有一个,就是让我们在对话时完成应用。

我们可能感觉不到应用的存在,但是它的确无处不在。

总结和展望

在对话即应用的时代,有哪些区别于以往的显著特征?

一是自然对话主导交互,交互的方式、过程和结果都以对话方式呈现。

二是应用无需安装,完全服务化,轻量级,用户获取和使用的成本大大降低。

三是不同场景下的应用自动融合,用户不需要使用那么多 APP,也不需要打开那么多网页,使用效率大大提升。

四是服务变得有偿化,和人的服务一样,高质量的虚拟服务本质上也是商品,应该获得高价格的回报。

所有这些如果实现的话,我们的开发成本会降到很低,使用效率则会提高很多,机器和设备的智能会极大体现出来。这样一个时代是机器逐步学习、模仿人,并最终超越人的时代。

本文作者:张梦华

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-20 00:30:08

蓦然认知 CEO 戴帅湘:对话式语音交互将无处不在 | CCF-GAIR 2017的相关文章

对话蓦然认知 CEO 戴帅湘:我坚定地不看好智能音箱 | CCF-GAIR 2017

雷锋网注:7 月 8 日,中国计算机学会(CCF)主办.雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的 CCF-GAIR 2017 大会,蓦然认知 CEO 戴帅湘在智能助手专场做了<对话即应用>的演讲,阐述了语音交互在生活场景中的具体应用,以及机器对话中需要解决的有关语义理解的诸多问题. 会后,在专访中,戴帅湘又与雷锋网进一步分享了其对于语义理解.场景服务的理解.眼下语义理解的核心是什么?难题在哪儿?如何克服?百度.阿里等巨头的进入将对创业公司造成什么影响......关于这些问题,戴帅湘

蓦然认知带你挖掘IoT时代对话交互的深度价值

3月28日,蓦然认知CEO戴帅湘出席了2017春季人工智能产业峰会,并做<对话及应用-自然语言交互的未来及挑战>主题演讲,在之后的创新论坛上与众多行业大咖进行深度交流,全面阐述了蓦然认知的智能交互决策引擎Mor基于DAAA理念的商业价值和技术价值. 人机交互的发展先后经历了互联网普及前的桌面时代.互联网普及后的浏览器时代和手机出现后的移动时代,是一个逐步解放双手的过程,也是一个不断智能化的过程.如今,一个全新的时代--IoT时代正在到来,在这个时代,语音交互将是科技发展新风口. 为了更好地适应

中国Alexa款款而来,蓦然认知获AI交互领域2016最大量级A轮融资

北京蓦然认知科技有限公司(又名:小蓦机器人)近日传来喜讯,已获得来自顶级投资机构经纬中国.源码.襄禾的1000万美金的A轮投资,顺利突破资本寒冬:而这也是2016年国内AI交互领域里最大量级的一笔A轮融资.此外,蓦然认知已成为多家智能设备生厂商在智能家居领域的对话及语义技术提供商,并与国内最大的数字地图生产商四维图新在智能车载市场达成战略合作关系. 蓦然认知(Moran)成立于2016年5月,是一家以认知计算.自然语言理解技术为核心的人工智能公司,主要对外提供信号处理.语音.语义.云端服务等自动

为什么NLP 初创公司值得投资?蓦然认知凭什么是AI 初创最具有投资价值的公司——来自蓦然认知合伙人Claire的感受

目前AI投资的热浪方兴未艾,为什么所有的资本对于NLU的AI公司如此热情高涨呢?目前国内的语音交互市场群雄割据,已成逐鹿之势.面对这样一个白炽化的竞争市场,startup 又该如何存活并壮大?今天蓦然认知联合创始人龚思颖和我们一起分享她的创业感悟. 技术实力是根基.AI创业与资本主宰的O2O.共享经济不同,这是一个技术门槛非常高的行业.NLP在互联网时代,一直是一个非常低调的基础技术,只有以搜索为主营业务的公司才会对这个基础技术有需求,而且需要长时间的技术积累,绝对不是一个团队刻苦专研半年能够搞

Alexa 一键下单不好用?蓦然认知推出语音对话购物

"我坚定的不看好智能音响作为语音的入口,Echo 自己也不看好,要不然干嘛推出 Echo Show?" 蓦然认知联合创始人龚思颖反问道. 在她看来,现在语音入口的设备,包括电视.手表和眼镜,最终的形态现在依然没有定论.但她坚信的一点是,要让语音真正落地,成为被用户所接纳的最常用交互方式,最终要解决的是用户头部需求.  "不论是查天气还是查时间,都非头部需求,这些需求只是一种测试语音助手基础功能的最基本条目,而衣食住行是用户的基本需求,沟通需求也是用户的基本需求.许多专注语音的

云营销平台Freespee获925万欧元B轮融资,帮助企业管理对话式商务

Freespee自称"实时对话云技术公司",目前已获925万欧元B轮融资,由法国风投公司Ventech领投,现有投资者Sunstone Capital和Inventure参投.Silicon Valley Bank也参与了该轮投资,意味着此次融资混合股权和债务融资. 自2009年成立以来,Freespee一直坚持着它最初点击呼叫的广告定位.但是现在它不再将自己定位成一个使在线品牌更容易鼓励客户打电话的广告技术公司,而是提供一个更加广泛的云营销平台,侧重于"对话式商务"

康盛创想CEO戴志康演讲

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 在全球经济过冬的背景之下,IT业是否能够独善其身?如何在全球IT投入削减的情况下安然过冬?12月7日,由搜狐IT和计算机世界主办的中国Webgame分论坛在京举行.搜狐IT作为2008IT两会指定合作媒伙伴,对此次盛会进行了现场图文直播. 以下为康盛创想CEO戴志康演讲: 戴志康:Webgame是今年非常火的话题,是大家非常热衷的盈利方向,尤其寒冬到来之前Webgame可能是救命的稻草.中国网民都是下岗了.失业了无助了到网上找一些安慰.去年

语音识别的前世今生 | 深度学习彻底改变对话式人工智能

CNET科技行者 8月21日 北京消息:"语音识别"的终极梦想,是真正能够理解人类语言甚至是方言环境的系统.但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发. 在过去几年中,人们在人工智能和深度学习领域的突破,让语音识别的探索跨了一大步.市面上玲琅满目的产品也反映了这种飞跃式发展,例如亚马逊Echo.苹果Siri 等等.本文将回顾语音识别技术领域的最新进展,研究促进其迅猛发展进程的元素,并探讨其未来以及我们距离可以完全解决这个问题还有多远. 背景:人机交互

御泥坊CEO戴跃锋公开反驳集体沉沦,透露移动端销售业绩

7月19日消息,淘宝化妆品牌御泥坊CEO戴跃锋日前公开反驳"淘品牌集体沉沦"的观点,并透露了御泥坊近两年在移动端的销售业绩.据他介绍,御泥坊今年上半年的移动端销售额已经达到1000万左右,超过2012年移动端全年销售额. 戴跃峰介绍,御泥坊2011年全年移动端的交易额超过100万,2012年移动端交易额则接近1000万.今年上半年,移动端交易额已经超过去年一年的交易额. 在今年年初,戴跃峰曾向亿邦动力网表示,提升移动端销售占比是御泥坊今年五大主要方向之一.他预计,御泥坊2013年的移动