CAAI演讲实录丨李德毅院士：交互认知——从图灵测试的漏洞谈开去

8月26日至27日，在中国科学技术协会、中国科学院的指导下，由中国人工智能学会发起主办、中科院自动化研究所与CSDN共同承办的2016中国人工智能大会（CCAI 2016）在北京辽宁大厦盛大召开，这也是本年度国内人工智能领域规模最大、规格最高的学术和技术盛会，对于我国人工智能领域的研究及应用发展有着极大的推进作用。

27日上午的第一个主题报告，是中国工程院院士、中国人工智能学会理事长李德毅的《交互认知——从图灵测试的漏洞谈开去》。李德毅院士首先从图灵测试在面对自闭症的情形、手机交互认知、教育的教学相长的交互认知说明：交互认知不同于但又一定伴随着记忆认知和计算认知；交互认知的外在表现，是语言交互、图像交互和体感交互。交互认知的内涵，语言是对交互认知的语义标注，图像是对交互认知的情感标注，体觉可称之为肢体语言，图像是交互认知的主体。他认为，交互认知的本质是协商和学习，聊天是交互认知研究的突破口。要研究聊天机器人的形式化约束，研究双人聊天、群聊和复杂系统涌现中的交互认知。

他还提出了一个值得警示的现象：如果连浅层次、短时长的双人聊天机器人的交互认知都做不好，如果机器人不具备最基本的语音交互、图像交互和体感交互能力，中国的服务机器人产业，就跳不出同质化、玩具化、低端化的怪圈，“高开低走”只能把服务机器人行业推入血腥的“红海”。

以下为李德毅院士演讲速记整理（未经演讲者本人确认）：

各位同仁各位朋友们很高兴你们来参加中国人工智能，今天想以一个新的角度讲一讲我对人工智能的看法。

交互认知

大家都知道计算认知，今天我讲一个跟它同等重要的题目，叫做交互认知。认知的英文是“Cognition”，意思是“很有研究的”。今天我讲的Cognition，是Interactive Cognition，对图灵测试的基本模式谈一点自己的意见。

被忽视的交互认知

首先我讲一讲为什么研究交互认知。我们中国人工学会刚刚成立了一个“交互认知专业委员会”。思考交互认知和计算认知不同，咱们先看看图灵先生是怎么看待智能的。1950年图灵写了一篇重要的文章叫做《计算机器与智能》，提出一个图灵测试的模式，测试者在一个房间里面，左边是人右边是机器，通过两者对话判断机器是不是具备人的智慧。2014年，图灵逝世60周年的时候，有一个聊天程序叫做“尤金古斯特曼”被世界认可，从这个意义上说智能是从对话开始。

所以，人类是通过交互、记忆和计算获得认知的。然而，在过去的半个世纪里，我们是否太多地关注了计算智能，是否忽略了交互或者记忆呢？所以我呼吁大家，特别是人工智能学会的同仁们，研究一下交互智能、交互认知。

交互认知的三个例子

我们很多小孩子，如果脑发育不正常会有一种病，叫做自闭症，又称孤独症，早期干预治疗尤其重要，否则会造成终身后悔。自闭症有很多表现，例如到幼儿园不合群。那么我们现在看看图灵测试的时候，如果左边这个人换成了一个聊天机器人，而右边的机器让一个自闭症的孩子来代替，这时候我们的测试者在区分谁是人的智能谁是机器的智能。所以，这是图灵测试的瑕疵：因为测试者看不到这个机器人和自闭症患者，仅仅从对话判断，也许聊天机器人的智商比自闭症儿童还好。

再举一个例子——手机，也是目前人类跟世界沟通的一个最好的交互认知手段。手机这几十年的发展，从开始的大哥大到今天的摇一摇，走过非常漫长的道路，传感器越来越多，集成摇一摇、扫一扫、刷一刷，手机变成了一个传感器的集中营，变成人们一个空前繁荣的圈子交互。我们看看用手机聊天聊的结果，前面三句话是同一个问题——“你今天吃的是什么？”第一句回答是“蛋炒饭”，第二句话多了一个“嗯”，你再问的时候他就会说“这是我最喜欢吃的，我每天都吃，今天也不例外。”同一个问题他每次回答都不一样，这就是聊天跟问答系统的差别。

同一个问题多种回答，这是我一直强调的不确定性回答，而且从这个回答当中你已经看出他的变化，如果你问他三次“你今天吃的什么”，他会说“你有病吧”，这三句话反映的是聊天人的性格、修养和幽默，这才叫聊天。所以我提出的质疑是，聊天总是在特定的语境、语用、语义或语构下发生的，在过去我们是否太多关注了语义和语法，忽略了语境和语用，忽略了语言交互中的不确定性？如果你买一个聊天机器人没有这样的水平，很快就变成玩具，甚至是垃圾，因为放在在家只会占地方。

我们再看一个更严肃的主题——教育。教育改革的根本目的是什么，就是教和学的交互与认知，教与学本质就是交互认知的方法，交互认知从幼儿园到大学最核心的改变就是精神。我们在座的很多是大学的老师，我告诉你，随着个性化教育的出现，将来很可能教师要被教练机器人替代，你的职业也许受到了挑战。

三个例子，一个是自闭症，一个是手机，一个是教育改革，都说明了交互认知不同于、但又一定伴随计算认知。当然我们的计算认知也可以作为一个定义，我是这样定义的：认知主体自身进行计算，而交互认知是至少认知两个主体，甚至更多的主体相互之间进行了交互认知，因此计算认知本质是思维，这是从计算科学角度来讲。从认知科学角度来讲，思维的本质就是计算，也可以这样说，它是利用数值计算、符号计算和多媒体数字化的处理变换、演绎、推断和挖掘，是概念、判断、决策的形成过程，是对多感知的觉悟加深理解发现价值获得新的认知，我要强调的是计算认知无法取代交互认知。当然还有一点很重要，从脑科学角度来讲，人脑的记忆很多，有瞬间记忆、工作记忆和长期记忆，记忆认知是脑认知的核心，也不同于交互认知和计算认知。

回到交互认知，交互认知的外在表现包括如何听、如何说、如何看、如何感觉。这之间是有关系的，也可以这样理解：语言是交互认知的语义标注，图像是对交互认知的情感标注，体觉是肢体语言，交互认知的度量可以用情商或智商表示。我们看一个情感机器人，情感是可以计算的，情商同样也是可以计算的。美国心理学家艾伯特提出，在利用语言实现交互认知的过程当中，语义的作用占7%，语音的作用占38%；为什么大家到这里来开会，你看看我的PPT不就可以了吗？不行，因为我的面部表情肢体语言占了55%，所以一个人关在家里是不可以的。

听主持人报道哪位领导人去世的时候气沉声缓，一定是悲伤的，不同的语调反映不同的情感；夫妻俩吵架一定是气足声重的，甚至是气粗声硬的，吵到最后都是那几句话。

交互认知还有二重性，通过视觉、听觉、嗅觉等等跟外界自然人机器人互动，尤其是理解心理、意愿、动机等，交互认知的最大魅力在于不确定性，包括方式的随意性和内容的未知性。有一本书叫做《不确定性人工智能》，我和我的学生写的，今年英文第二版会出来，我们确定的不确定人工智能就是看似瞬间性、随意性和未知性中发现人工智能。和听觉触觉相比，我认为图像交互才是交互认知的主体，从人的视觉神经在人脑当中的地位作用来看，这是非常重要的。

从这个意义来讲，在图灵测试的过程中，如果被测试的一方支支吾吾不回答你的问题，或者主动插话介入，就可能颠覆测试者的主导地位，本来是你问我答的，由于我主动插话，我抢问了你答了——大学生到公司面试的时候经常发生这个情况，结果被录取了，那就是利用图灵测试的漏洞。

图灵测试本来是测试对方是否具有人的智能，如果图灵测试的漏洞被多次利用，图灵测试就转化为比拼测试双方谁更睿智的问题，不在乎双方哪一个是生物人哪一个是机器人。

交互认知的研究突破口

什么是研究交互认知的突破口呢？我觉得就是昨天一个专题非常重要的讨论——交互。对话是最直接最便捷的交互，对话智能是几乎所有服务机器人的必备的，能不能把对话机器人作为研究交互的突破口呢。大家都想创新，尤其是讯飞他的语音做的比较好，为什么比较好，因此我提出一个观点，聊天，聊天是一个浅层次的、短时长的对话，很好做，三分钟就解决问题，但是聊天是最通用的对话，也许是讲废话，但是聊天带来的亲和感带来的社交能力不可或缺，所以聊天不是什么噱头，聊天是社会交通的刚需，你去买票的时候，当你参加舞会的时候，当你开会的时候，当你会下休息的时候，你连聊天都不会，你能获得多少信息呢，所以聊天是刚需，不会聊天的机器人太乏味，所以被社会所抛弃。

对话机器人能聊天吗，能经得起聊吗？交互认知可以从研发“互联网+对话机器人”开始，这里面有5个点：

不要太多的关注语义或语用，我们已经关注了50年了；
上下文关联，语法谓语定语，但要更多的关注语境或语用；
我们要优先考虑交互的环境，你是在火葬场聊天还是在舞会聊天，你这个环境不了解你说这个话太唐突了，要强调沉浸感、交互感和和构想感；
要关注交互认知环境中的选择性注意，因为你从哪儿搭话，要有环境的；
要研究不确定性交互认知中的客观性、普遍性和积极意义，要寻找不确定性中的基本确定性。

我们做服务机器人我想告诉你我的观点，对话是所有服务机器人绕不过去的坎儿，你是智能小管家还是老年、儿童的陪护机器人还是英语学习辅导机器人还是一个智能车，你一句话都不会聊谁坐你的车啊，你多一句话都不说，你怎么能听懂人家的意图。

你们看看这个聊天机器人是多么的惨：

“小样小样你吃了吗？”
“对不起我听不懂。”

这种招呼用语还听不懂，那太惨了，不懂人情世故。再问他他这样回答，他支支吾吾了，他不置可否，也蛮好的。

“小样最爱蹭饭吃”，这句话很幽默。微软的小冰，3年的成长，对于重复多次的此问题的回答每次都不同，有一次是这样说的：“你自己玩的挺high的”——终于有了人情味。

我们再看这个，这个我们评价一下：

“你体验爱情吗？”
“不，我53岁了。”

这个话很巧妙，转移了话题。再被问到“你能说说53岁的感觉吗？”再次改变话题：“我9岁。”

对话机器人自身是活生生的认知主体，不是一个刻板的问题回答系统，充满不确定性和变通，有情感有语言交互能力，有社交技巧，背后是与特定的语境、语用相关，要具备对缺省知识和尝试知识的表示、获取、学习和推理能力，这个非常重要。

跟大家分享一下，我们利用云模型研发了一个不确定性对话机器人的原形。我们是这样搞的，首先是特定的对话背景，对话双方都是有故事、有个性的人或者机器人，用动画体现情感交互、语音交互、文字交互。我到科达讯飞去做了一个跳舞的机器人，我觉得很难受，就讲你这个没有表情啊，远看很漂亮，近看不行，我说你还不如做一个动画，还有表情，我不太主张马上就做人型机器人。有一个日本的教授，把脸上所有的肌肉都做的人造肌肉，我看了还是不太自然，你先做一个动画的也可以，话题、情感、性格都要有不确定性，要有意思，这样的情况之下研发了一个对话引擎。我们的方法很简单：

基于检索系统或者基于搜索引擎生成一个可选的答句集，是一个很大的数据集；
第二个很重要，借用机器翻译技术润色答句，标识个性，关键在于下一个出发点的选择，聊天的瞬间性、随机性、未知性，就是给你一句问句，你有一千到一万个答句等着，所以出发点怎么生成、怎么选择很重要，我们就利用长期研究的成果，用云模型来生成这个随机性——我在1996年拿到第一个专利，就是云发生器，现在终于找到一个很好的应用场所。

比如语义，有话题有上下文有语义关联有语构，“我明天要到长安街去”，回答可以是“后天去长安街”，也可以说“我明天不去长安街，去体育馆”，那就在宾语上做，有很多选择。但是很多的人过于关注了语义和语构，忽视了语境和语用，要知道一个说话人的身份，要关心他们的性别、年龄、对话时间、社交场所，要关心他们用的语言，他用英语提问就用英语回答，还有语调、用语习惯、表情、肢体语言等等。

如果每个都要选择，下一个出发点就是万分之一，这就是不确定性的难处。跟大家分享一下5个诀窍：

对话中的不确定性，用云模型中的期望来度量，随着对话的展开商通常会下降，表现为长尾特性，我曾经做过一个标高就是用商、超商和期望怎样分布的，这个正好可以用到这里来，对话机器人的研发难在开头。
对话开头的语境不确定性，常常导致对话机器人很傻，要利用尝试和缺省知识填补语境和语用知识，减少语境不确定性。
记录对话数据，可从生人变熟人，并从对话数据库中学习和挖掘常聊的语境、对象身份、性格、兴趣话题、语用习惯，可以提高机器人的智商和情感。我们目前正想做一个首都机场的VIP服务机器人，记忆金卡、钻石卡用户的爱好，下次为他们提供有针对性的服务，这不是很好吗？
对话过程中利用图灵测试的漏洞，机器人可适时主动介入，争抢话语主动权，避免尴尬，淡化谁在问谁在答，主导对话的走向。这一条很重要，很感谢图灵给我们留了一个漏洞。
人们通过微信形成的对话大数据是研发对话机器人的天然源泉，是对话机器人自学习的在线语料库，而且可以与时俱进。

给大家表演一下，我们最近完成的这个奥运会的对话，这是我们拿手机对话做的两个截看：“看奥运会了吗”、“巴西足球终于夺冠了”、“中国队怎么样？”、“体操没有一块金牌”，这样的对话基本上还是在允许范围的“中国队怎么样”、“已经使出洪荒之力了”，两个同样的问题答案不一样，相同问题已经生成不同的回答，这个回答问题的人他要利用图灵的漏洞改变话语权了，他又说了一句“我们聊聊王宝强”、“我对娱乐八卦很感兴趣”，如果用这样的聊天你就感觉很亲和，当然刚才讲了聊天仅仅是个浅层次短时长对话，但很重要，我们不仅要研究双人聊天，还要研究多人聊天，我们还要研究群体智能，研究复杂系统涌现中的智能。

我们在十年前的2006年做了一件事情，并发表了一篇重要论文，叫做“掌声响起来”，这是一个典型的交互认知的研究案例，研究在一个音乐厅里面人们对一个节目的反馈，一般情况是礼貌性的掌声，因为没有指挥，但如果这个节目相当好可能变成同步掌声，我们用计算机模拟，反映1024个人对这个节目的反应，通常的情况下是礼貌性掌声，如果节目相当好，那么他就会发出同步的掌声，就掌声和掌声之间可以交互，这就叫交互认知。我们在那次报告当中还研究了礼貌性掌声乱七八糟的，交织的掌声没有同步，自发的同步掌声，让它尽快的同步起来，这也是很有意思的。这个论文也是当年下载量最多的论文之一，上了TOP10。

10年后的现在，我们和东南大学合作聊天机器人，这是脑科学和人工智能交叉的共同载体，叫做认知障碍早期发现机器人，拥有几百个典型的情感微表情库，典型的语音、语调情感库，我们想通过它放在手机上做一个APP，尽可能早的让小孩子拿这个APP玩就知道他有没有自闭症、抑郁症等，甚至发现脑力有没有痴呆，通过语言、表情的交互大概可以看到在认知上面有没有障碍，我觉得这件事情很值得做，因为脑科学的研究就是要有一个健康的大脑，发现脑疾病也是很必要的，我们的载体就是手机APP，就是情感交互。

这里提一个值得警示的现象：如果连浅层次的对话机器人的交互认知都做不好，如果机器人不具备基本的语音交互、图象交互和体感交互，中国的服务机器人产业就跳不出同质化、玩具化、低端化的怪圈，“高开低走”的结果只能把服务机器人行业推向血腥的红海。我们看到很多人就被红海淹死了，搞互联网下海十个死九个，搞人工智能下海二十个死十九个，因为老百姓需要的是功能，而不是你的核心技术。比如我已经用了三代的扫地机器人，现在第三个还在坚持用，前两个都在垃圾箱里了。

交互认知的本质：协商与学习

交互认知的本质，我认为是协商和学习。协商什么，协商的结果一定是达成共识，或者达成一定程度的共识，或者没有共识，但这三个结果都有意义，至少你知道了对方的认知，有利于下一次的交互，就好像六方会谈，虽然谈不成共识，还是有好处，还要谈。共识是交互认知的结果，是认知主体任何一方单独进行计算或者推理无法得出的新认知，所以我还是再次强调：交互认知是计算认知替代不了的，是记忆认知也替代不了的。

昨天跟蒲院士吃饭的时候，他告诉我人与人之间交互，看到人的眼睛偏到旁边去就对方在开小差，低等动物就没有这个本能，小孩子刚生下来这个本能也很差，交互认知更多是后天脑发育的结果。

另外一个本质就是学习，一方可以从另一方获得新认知，这种学习也可以是单向的也可以是双向的，人类社交活动的交互认知以及人和自然、自然人、机器人之间的交互认知，大大扩展了单个人、一群人乃至整个人类的智能，这件事情不可小看。

举个例子，好比玻璃门遇到一个机器人，机器人来到门前说“这门怎么开”，一句话，门回答“我是一个滑动门”，机器人就走了，就一句话学到东西了，门有几种啊，有滑动、推拉的、旋转的、卷帘的，你告诉滑动门我就知道怎么开了，这就是对话的作用，这就是学习无处不在。

我现在做的智能驾驶，智能驾驶中的交互认知是非常重要的，我们到一个个汽车厂商做的自动驾驶遇到这样那样的麻烦，什么原因呢？一个最基本的真理，驾驶员在驾驶过程中的作用和地位，他们忽视了这个。在驾驶过程当中的交互首先是人车交互，开车的人都知道你并不知道你的方向盘转了多少度，你可以舒适的凭感觉操作，就把这个车子开的比较灵巧，这靠的什么呢？靠的是人车交互。通过脚感、手感、路感、体感获得交互认知，不但安全还能够省油，还让你舒服，现在多数都谈二次路径规划安全而已，同样的车不同的人耗油不一样的。

驾驶员对周边环境和车流的交互，经常看到开车的时候有的人把窗户摇下来，用手势告诉对方周边的人你走吧，很客气很礼貌，这是一种社会文明的表现，用手势和附近车辆行人沟通，认知的结果转为对自身车辆控制，这种交互认知的差异反映个人智力和运动协调能力的差异。

这是一个什么情况，这是经常看到的拥堵，每个驾驶员都认为应该这样开车，结果表现为拥堵，这就好像“掌声响起来”的礼貌性掌声一样，大家都认为是合理的，整体就是这样。

在这样一个抽象的环境里面，黄色的车子是自动驾驶车，红色的是人工驾驶的，假如车子将来自动驾驶了这个现象是什么样，特斯拉这次事故当中做一个模拟，两辆车是人驾，其余的都是自驾，自动驾驶就一定有它的条件，这个条件不能满足就转为人工驾驶，所以特斯拉说对不起你的手要放在方向盘上，于是发生认知差异，你们看看这两个人一开车什么情况，自动驾驶门槛由于两个人工驾驶立马崩溃，几乎全部转为人工驾驶，这叫做自动驾驶陷阱，你们买车要小心，让你把手放在方向盘上那只能叫辅助驾驶，我们追求的是自主驾驶，希望这个车子是一个认知主体，是一个机器人。

轮式机器人也要有交互，跟谁交互，七种人，第一轮式机器人，第二驾驶员，第三程序员，还有维护人员、乘员、互联网远端的车主，最后互联网远端的请求，还有互联网远端的黑客，所以这7种人怎么交互，你考虑过了吗？现在正在想，如果我的轮式机器人是安全的，马上受到一个问题，你这个机器人不懂人情世故，小孩子要小便你都不知道怎么停下来，所以驾驶员不旦是开车，还要交互，如果这样的事情都没有，孩子妈妈不会坐你这个车的。

自主驾驶轮式机器人应该拥有现场的处置权，不是靠互联网控制的，互联网控制一个人眨不眨眼靠谱吗？双驾双控、在线干预认知能力、目的地表达、车主，黑客，我们是坚决不允许黑客来干扰我的刹车油门的。

轮式机器人在线驾驶员的学习，我们通过深度学习来模拟驾驶员怎样操作方向盘和刹车的，模拟人在回路中的自主预测控制，把人在回路中的自主驾驶让车厂去模拟，是难以承受之重，把机器驾驶脑的研发让车厂去做，是难以承受之重。所以这个就不是一个简单的事情，我们在这个情况下早就提出来一个驾驶脑的事情，研发的这个驾驶脑一个智能硬件，当然包括软件，他是干什么呢，是来拿驾照的，传感器替代不了，车厂替代不了，是给你驾龄的，你刚会开车的人跟开10年车的人不一样，我们是买个路熟，路熟不熟对你的影响很大，不熟给你一个世界地图，都熟了，地图替代不了，还要来一个个性化驾驶，你这个车子开了一百次，机器人说老板这个我可以开了，这多好啊，当然我们还把标杆驾驶员的驾驶动作做成标杆驾驶，这个很好，自动驾驶替代不了。

我们通过深度学习来学习驾驶员怎样操作方向盘油门刹车的，驾驶态势和驾驶员的认知箭头人为组成一个团队，叫做驾驶态势认知态势图库，一个和阿尔法狗一样的，一个叫做围棋态势网络，还有一个叫做落子选择网络，利用顺路学习，如果让一个有经验的驾驶员从机场到天安门，开一天会拿到153924个图对，你把驾驶态势看成人脸，认知箭头看成标语，那就是谷歌他们现在做的完全一样，深度学习形成一个驾驶记忆。

自驾驶的时候人不在了，根据驾驶态势以图搜图，把这个认知箭头搜出来，这就是我们说的正学习，机器人向经验驾驶员学习开车，我们跟他们做的不同在于他们在感知中，我们是在抽象化形式化之后在认知中做，这就是我们的创新点。

通过深度学习实现自学习，其中尤其是统计学习和进化学习，当然开车真的会开车的人都知道，吸取教训是学习的重要手段。凡是犯的错误的动作，我们是万万不可采取的，这是自学习中的负学习。

总结

今天的报告总体就是人工智能是否应该更多的关注交互认知，研究人与人、人与机器人、机器人与机器人或者混合的认知主体之间的交互认知。我们希望通过这个报告能够掀起一个研究交互认知的高潮，提供更多人的交互和群体交互的方法，满足机器人市场或机器人联网的迫切需求。

报告做完后突然发现还有一个副产品，顺带引出一个推理：不必担心机器人的出现会对人类造成整体伤害，这是从交互认知得出来的推论。我是这样推理的：区域人群，乃至全人类群体交互认知的共识，几千年来，以文字记载和传承，形成区域认知或者人类的文化、文明，这种共识就是人类的意识、道德、规范和普世价值，构成人类社会的生态。所以今天明天可能出来一个机器人，从这个意义上说不必要担心新兴人类的出现会对人类整体造成伤害。人也好机器也罢，一个个独立认知主体在这样的生态下诞生都是人类自身的延续，整体上会遵从这个生态环境的也就是这一区域乃至全人类的普世价值，所以不必担心，就好像不必对隔代差异认知大惊小怪。

我的报告就到这里，谢谢大家。

本文来源于"中国人工智能学会",原文发表时间" 2016-08-30"

时间： 2024-12-03 14:41:51

CAAI演讲实录丨李德毅院士：交互认知——从图灵测试的漏洞谈开去

交互认知

被忽视的交互认知

交互认知的三个例子

交互认知的研究突破口

交互认知的本质：协商与学习

总结

CAAI演讲实录丨李德毅院士：交互认知——从图灵测试的漏洞谈开去的相关文章

演讲实录丨李德毅 ADAS的繁荣与转型

演讲实录丨李德毅：无人驾驶的图灵测试

【智驾深谈】李德毅院士：深度学习将成为智能驾驶的新维度

CCAI 2017 | 李德毅院士现场致辞：中国人工智能步入新阶段

李德毅院士：脑认知的形式化

李德毅院士：再大的数据也能绕过那道弯

李德毅院士：互联网不要自我感觉太良好

李德毅院士：大数据认知

CCAI 2017 | 中国工程院院士李德毅：L3的挑战与量产