人机对话这件事为什么难?| 清华x-lab人工智能研习社

“目前市面上人机交互的智能硬件,距离真正的自然交互依然有很长的一段路要走。”

在清华x-lab主办的人工智能研习社第五讲,三角兽的创始人、COO马宇驰如此描述当前的人机交互产品。

在同日举办的百度2017世界大会上,李彦宏的观点与马不谋而合:“我们现在看到很多智能音箱,虽然不需要按住,但是需要一个唤醒词,一般是四个字,这不符合人与人交互方式。我跟你说话的时候不需要拉你的手,也不需要每句话都叫你的名字,更不需要每次都叫四个字。”

在清华的演讲中马宇驰表示,目前市面上人机交互的智能硬件,距离真正的交互还需要至少8-10年时间。各大发布会上自然交互,甚至有些可以接受访谈的机器人,一定有某些人工的介入,噱头颇多。

三角兽创始人兼COO马宇驰在清华x-lab人工智能研习社演讲(刘涵 摄)

而作为人机交互最重要的应用场景之一,搜索引擎与人类最自然的交互方式依然有很大不同。“比如我们如果要查今天的天气,到百度可以直接搜索“北京天气”,但跟人说话肯定不能这样,跟同学说“北京天气”,别人会以为这个人有病,要说今天出去穿羽绒服冷不冷这样的话,这部分叫自然语言处理。在之前的一次大会上有一个智能领域的科学家说语义是人工智能皇冠上最后一颗“明珠”,因为人工智能学会了语义才真正接近于人的思考方式和回应的方式。”马宇驰称。

那么人机对话这件事为什么难?深度学习等AI技术又能从中做些什么?在清华x-lab的人工智能研习社课程中,三角兽创始人兼CEO 王卓然博士在马宇驰之后解释了这些疑惑。

三角兽创始人兼CEO王卓然在清华x-lab人工智能研习社演讲演讲(刘涵 摄)

以下为王卓然演讲,大数据文摘在不改变原意的前提下有删改:

人机对话这件事为什么难?

一些名词大家应该耳熟能详,像深度学习、增强学习、自然语言处理、信息检索、数据挖掘。最底层的技术模块,像决策过程、推荐系统、知识库、逻辑推理、分类等等,可以看到机器学习和自然语言处理几乎每一个模块都会用到,人机对话涉及到方方面面。人机对话这个大的领域其实是人工智能的下一代,叫做认知智能。认知智能就是人怎么去感知世界,怎么去理解世界,然后用机器去模拟它,去拟合它,再用一个接近人的方式来反馈给我们。所以它涉及的面太广了,只是单纯说人机对话这个子问题都可以另外定义出好多子问题。所以我们只是把这些基础的模块、基础的算法包装成我们内部通用的模块,像开放域的聊天检索式问答、深度问答、图文对话的引擎等等等等,然后我们对外输出的产品,有开放域聊天,有问答的引擎,问答引擎的意思就是客户把他的问题和答案灌进来,我自动支持基于问题库的问答,我们还有多轮对话的引擎,可以不依赖于领域。比如说找电影、找歌、找餐馆用的是同一套引擎,只是把不同的数据、本题库、知识结构导进去,让它支持一个领域的对话,我们还可以把它打包在一起,变成多域的对话系统。所以如果做人机对话,基本上自然语言处理、机器学习里所有的事都要融会贯通。

人机对话的几大核心问题

1)开放域聊天

平时我们和人说话有不同的场景用不同形式对话,或者说用不同的方式去思考,比如说开放域的聊天,没有目的、不是为了找到一个信息,或者说不是为了完成一个任务来去对话,而是朋友之间的寒喧、互相的问候,这种就叫开放域聊天。

2)多轮对话

这个更接近于人机的对话,和人与人的对话也有一定相似处。比如我们要找一个餐馆,我会问找五道口的餐厅,机器会问喜欢什么口味,我说川菜的,又问对环境有没有要求,我说有没有适合朋友聚餐有没有大的包房,这是机器多轮对话完成的。

3)智能问答

智能问答这个概念比较好理解,这个技术也相对于另两个更久远一些,也更成熟一些,问答就是一问一答,我问你天空为什么是蓝的,你给我解释说什么空气的折射等等一些因素,我问兔子真的爱吃胡萝卜吗,你可以回答兔子都爱吃胡萝卜,但不是全部,这是人机对话不可或缺的一部分。

这三部分之间是互相没有联系的,在目前的技术框架下,开放域聊天有开放域聊天的做法,垂直领域有垂直领域的做法,问答是问答的做法,做产品不能只做一个用户的问答或者一个聊天,这些东西要整合在一起,于是就出现了跨域的中控概念。以度秘平台为例来讲,这个平台既可以支持闲聊,也可以支持找电影,找歌,找餐馆,查快递,支持问答,甚至更多的技能,开窗、开灯等等,这是由单独一个服务模块来完成的。但是用户说出一句话之后,这句话到底应该归哪个模块去响应,这就是中控去做的一个事,其实就是根据你的上下文,根据你的每个域回复结果质量的情况综合算出用户这句话有哪一个服务区响应最好。

相关性是开放域聊天最重要的一个指标。我说一句话之后机器回了一句与我相关的话,不相关就没有办法再聊下去了。在这个基础之上,我们要注重几个点,一个是上下文的覆盖,人与人聊天是有上下文的,不是你说一句我说一句,每一句是单独割裂的,而今上下文的覆盖已经做得很好了,达到了40%的上下文覆盖,可以体验到40%的联系。

深度学习等人工智能技术可以做什么?

上下文引入进来之后整个的数据会非常的稀疏,所以我们用了深度学习进行自然语言处理,最大的帮助就是可以把离散的词,离散的句子,离散的篇章等等表示成一个向量,这个向量在分布式的语义空间中就可以计算它的相似度、相关性等等这些指标。我们就用深度学习这个方法把上下文的整个信息都表示成了向量,再用向量检索向量的方式去找你说这句话的上下文、语义或者语境更相似的上下文,再用同样的方法检索获得侯选。

另一块是紧密情感,人和人聊天不可能是冰冷的你一句话我一句话中性的,肯定夹杂很多高兴、开心、伤感、鄙视的情绪等在网上的表情标签。把这个引入当中就会让聊天更生动有趣。这块我们做了一个尝试,我们通过这个数据兴起迭代的方法,用的还是很标准的CNN,只是我们数据加工、数据处理做了很多工作,能达到99%的准确率,用一句话去识别它对应的情绪,可能是开心、大笑等等,识别这个情绪能达到99%。

人机对话获取数据的来源都是互联网,互联网有一个问题,在互联网上人和人聊天的句子偏成人化,肯定不适合儿童。举个例子,我说床前明月光,这个机器人可能回应地下鞋两双,每个字也没有什么问题,也不涉及黄反,但整个句子的对儿童这么聊肯定不合适的。我们怎么在互联网这个语料上去过滤出一个儿童版本呢?首先用检索是不现实的,因为你不能保证每一句话、每一个字,只要有一句话或者一个字不适合这个产品就毁掉了。所以我们用了学术界比较火的端对端生成的聊天方式。它的训练语料是用成人语料,我们用能拿到的动画片的字模或者儿童书,用这个训练一个模型,用这个模型过滤成人语料,在这之后又训练端对端的模型,过滤完之后就可以认为不适合儿童的东西是小概率事件了,相当于我们写出了对儿童绝对安全的一版聊天。

我一直在研究垂直领域对话系统的泛化,什么叫泛化?在垂直领域对话很难获得,在网上抓数据的话也很难找到很贴切的人和人对话,或者人和任何东西对话,比如找电影,找餐馆这种数据很难获得。既然这么难获得,我们如果有这样的一个系统,用这个系统已经迭代学到很多东西之后,再把这个知识迁移到另一个领域。而且,问答跟人机对话完全不是一回事,问答更多是信息检索的过程,匹配用户的问题和库里的问题是不是同一个意思,然后反馈答案。

讲座后,现场听众与王卓然进行了对话。

清华x-lab人工智能研习社现场听众提问环节 刘涵 摄

提问:今天百度的大会发了一款RavenH,比较有趣的一点是有可以拆卸的触摸屏,发布者提到,现在市场上voice only的方式不太符合自然习惯,那未来人机交互是单纯以语音为主还是多种结合起来的形式?

王卓然:人机交互这个形式,要分场景,最合适的场景当然是一个多模态交互,因为多模态交互是人机对话的下一个进阶的阶段,人机对话只考虑语音,如果是多模态的话,要考虑到屏幕、触控、图像识别、环境传感器、位置等等。所以要分场景,不能较真,人机对话多模式场景比纯机器交互要好,很多场景下不具备多模态交互能力,比如说在车载的时候有屏幕的引入可能会造成负担,对行车安全也有危害,纯语音交互才是更好的场景,所以不同的场景不同的应用。

提问:刚才听了您的介绍非常精彩,我有一个问题,现在大家做语音处理和语义处理分得比较开,事实上在人说话的过程中语言不仅包括声音,还包括像语调、语气等等,但是好像市面上没有看见有人做语调、语气这方面的东西,语义大部分处理的是文本,您怎么看待这个问题,语音、语调和语气角度有价值吗?如果有价值为什么大家都没做,做的话难点在哪里

王卓然:非常好的问题,从学术角度上来讲有非常大的价值,单纯看文本一句话可能有两个意思,我没吃饭,我没吃饭?一个是疑问句一个是陈述句,代表的意思就不一样了。但是为什么没做呢,道理很简单,还没成熟到那个程度,商业到产品落地还差太远,还没有达到非要为这个事做一款产品,或者没有这个事就做不了产品的程度。

提问:我想问之前谈商业模式的时候是做B2B、B2C,你们是永远做男人背后的“女人”呢?还是慢慢推出产品面对C端用户呢?

王卓然:对用户市场对我们非常有吸引力的,但是从公司发展角度来看,这个阶段尝试C端的代价太大了,而且我们团队结构也不是为2C准备的,所以在短期之内都不会做这方面的事情。

提问:刚才您讲给小孩训练一个模型,过滤到不合适的问答。想请您详细解释一下这种过滤方式。

王卓然:我们用故事书、字幕等等去训练了类似于语言模型的分类器。用这个东西去过滤网上成人聊天的每一句话,把不适合儿童的都滤掉,我们认为剩下的它的分布会跟字幕、故事书训练分布是相似的,词汇分布、表达形式等等会跟儿童的表达形式更相似一些。在这个基础之上我们再去训练这个模型。

提问:您刚才讲的人机交互的话多模态情况下最好,我不知道理解对不对。比如人在沟通的时候,除了刚才说的声音、语料,包括说话内容,实际有很多肢体语言,下一代的人机交互会不会把语音包括视觉整个结合起来,这样才叫下一代的方式?

王卓然:会的,人机对话在国外学术界火过一段时间,之后好多人机对话转向多模态研究。表情、肢体语言加上语言,包括物体识别所有都在一起做人机对话,背后的技术,现在引入多个环节,物体识别等等是多维度,这后面有决策过程。如果对这个感兴趣可以关注两个大学的研究,一个是CMU,他们有一个人机交互的实验室,人机对话做的也比较久,有很多人也做多模态的交互。另一个是爱丁堡赫瑞•瓦特,刚开始是做人机对话,后来他们转向多模态的交互了。

提问:刚才您说公司应用场景其中有一个是IoT,是智能终端。这个在终端上用的话,您认为都是联网的通过云的处理方式呢,还是说我也可以去本地去用。如果是云的话涉及到很多场景,包括并发性的问题,有没有考虑像有一些东西是现在有一个趋势,把很多的算法固化成硬件。

王卓然:语义这块负担不太重,都是B到T这个级别,不像图像传输非常重。固化到端我们有尝试,跟华为海思有合作,那是支持NLP的,端对端聊天生成,语义理解几个RN结构,因为图象涉及很多东西,比如说实时的加工,实时的渲染,实时的分析,实时性图像本身传输有问题的情况下。文本层面最大的考虑其实是隐私,不是你说的云的负担问题。

原文发布时间为:2017-11-18

本文作者:魏子敏 刘涵

时间: 2024-12-30 22:33:10

人机对话这件事为什么难?| 清华x-lab人工智能研习社的相关文章

地平线余凯:自动驾驶处理器的“三国时代”| 清华人工智能研习社

昨天,匆匆从机场赶到清华的地平线创始人余凯,用这样一句话为其在清华x-lab人工智能研习社的讲座开场. 这位曾经在百度开创了深度学习研究院(IDL),又进一步开拓了中国最引人注目的自动驾驶创业公司"地平线"的连续创业者略带抱歉的称,自己不擅长讲述商业模式.创业感悟.经历.自喻为"技术人",余凯在清华的这次讲座更多的偏向技术内容,而在清华,这显然比"创业故事"更令现场听众振奋. 图:11月9日,地平线创始人&CEO余凯在清华做了题为<

犀牛科技陈一昕:医疗的蛋糕看上去很大,但是不好切丨清华人工智能研习社

作为AI领域落地的重要赛道,医疗行业近两年正在迎来新的风口.而相比其他领域,政策等因素在这个领域的影响更大更重,研发的困难也相应更高."医疗的蛋糕看上去很大,但是不好切." 在清华x-lab主办的人工智能研习社12月份的最后一讲上,犀牛科技创始人.CEO陈一昕与大家探讨了在医疗领域,人工智能.大数据是如何被应用的,以及如何为现在的产业提供一些服务. 他认为,医疗行业是一个特殊的应用领域,大趋势在其中是最重要的因素,把握住大趋势,就是把握住了关键. 陈一昕从宏观的背景.技术发展,以及人工

清华x-lab AI研习社 | 创新工场王咏刚:人工智能在线下落地难不是问题,而是巨大的机遇

昨晚在清华校园停留的短短3小时内,创新工场人工智能工程院副院长王咏刚至少回应了三次"AI商业落地和变现的能力这么差,为什么还这么火"的质疑.这多少表达了人们对于目前处于风口浪尖的人工智能创业的反思,而越是在清华这样踏实做学术的高等学府,这样的反思之声也越明显. 而王咏刚的回答耐心且颇乐观:人工智能的线下商业应用能力可以复制线上模式,而一旦这个闭环建立,将提供巨大的机会.10月18日,在清华经管学院伟伦楼报告厅"人工智能研习社认知创新"第一讲的讲台上,几位嘉宾尽管都表

SEO转化率是整个网站优化过程中最难的一件事

摘要: SEO转化率是整个网站优化过程中最难也是最重要的一件事,可是每个人需要把这件事做好,笔者从事三件SEO经验以前虽然简单的关键词排名不是问题.但一提到网站的转化率就无话可说 SEO转化率是整个网站优化过程中最难也是最重要的一件事,可是每个人需要把这件事做好,笔者从事三件SEO经验以前虽然简单的关键词排名不是问题.但一提到网站的转化率就无话可说了,相信真正能把网站转化率做的很好的也没几个人.这是每个SEOer遇到的困苦,也是每个SEOer都需要跨过的一道槛,目前笔者正在研究和分析网站的转化率

好的董事长只做三件事

好的董事长应当只做三件事:看别人看不见的地方,算别人算不清的账,做别人不做的事. 董事长是公司的一把手和公司团队的核心.我算是中国最资深的董事长之一,20年来我只做过这一个职务,没做过任何总经理之类的职务.在<公司法>出台之前,我就担任董事长,一直到现在仍然是这个岗位,因此对这个角色的扮演,我有一些自己的观察和体会. 按照<公司法>规定,总经理可以管很多事情,那么董事长该做什么?很少做事或什么事都不做,就挂个名签个字吗?一般来说董事长并不愿意这样,也不放心:但如果什么都管,管得非常

王德禄:中国高新区还要做几件事

领先世界 中国高新区还要做几件事 -- 对话北京市长城企业战略研究所所长王德禄 21年前,中国开始了火炬计划,高新区在全国雨后春笋般地建立起来,经过二十多年的发展,高新区已经成为地方经济的领头羊,成为创业创新的中心.2008年我国高新技术产业总产值达到5.8万亿元,比上年增长了14.1%,高新技术产业增加值约2.17万亿元,比上年增加了14%,一批具有自主知识产权的高新技术企业在国际金融危机面前不仅能够生存,而且展现了良好的发展态势. 高新技术企业主要聚集在高新区,然而,我们也应该看到,和美国硅

毕业生、待业毕业生应该做的几件事

写在前面: 在IT(IT,Information Technology,信息技术,或许有人真的忘了或不知道IT代表什么含义)这个偏向于技术的行业里,聚集着大量的信息技术爱好者.他们相当一部分是年轻的学生或者刚进入社会不久的青年."教育从娃娃抓起",这话一点也不假,而且一直是这么做的.但是很多人(其中还包括一些教育工作者)认为教育是教育者的事而与被教育者关系不大,认为教育者仅仅是传道授业解惑而忽略了他们内心的想法和变化.很多学生在中学时或者在小时候不理解老师或家长告诫自己的话或者强迫要求

优秀的设计不必来自专业的设计师:好设计的100件事

文章描述:好设计如何诞生:关于好设计的100件事. 好设计有吸引人心的力量.你会发现那些甚至只是看上去好的设计,都可以让人支付更多溢价.但真正好的设计,是用独特的视角和智慧不断修正生活里各式 各样的漏洞,为生活提供美感,当然,也能帮助公司塑造品牌.设计师米奇·考波尔在那本1990年出版的<软件设计宣言>里说: "设计师之所以受人爱戴,是因为他们掌握了人们想要的某些东西." 支付溢价的人不仅仅是普通消费者,越来越多的公司愿意把设计费用加入自己的财务报表,他们聘用专业的设计咨询

最让站长们痛苦的三件事以及解决对策

俗语说世上有三苦,撑船打铁磨豆腐,我认为站长也有三苦,二老猫来自农村作这样的比喻希望大家不要见怪.我觉得站长是一个能吃苦耐劳的群体,最痛苦的事并非来源于工作强度和工作量,而是其它一些拿不定吃不准的情况.站长最痛苦的事是什么?也许每个人的说法不尽相同,做为SEOER,我认为有三件事大家都经历过而且最让人烦恼和蛋疼,而这三件事都和百度有关,于是二老猫在一个月明星稀的夜晚纵声高歌"百度,你是我胸口永远的痛--".有朋友曾对我说要学会把痛苦当成一种享受,左思右想觉得逃离痛苦为上上策,遂闻鸡起舞