《西部世界》何日来袭?自然语言理解是智能人机对话的关键瓶颈

一部剧情烧脑包含各种炸裂设定的神剧,迎来了观众如潮的好评。如同人工智能距离其出发的原点已经有60年,《西部世界》距离它的原作前身也已有40余年之久。这是一部根据早期同名科幻电影改编的剧集。“西部世界”是一个高科技的人造主题公园,公园中的“人”——从“接待员“到“居民”,都是与真人一般无二的机器人。剧集的推进为观者抛出一系列问题:“始终按照人类设定循环往复的机器人,何时真正自我觉醒?“”机器人是否能够拥有自主意识?“……剧情将我们带入一场关于人工智能的深刻讨论。

 

原作1973年的电影,高智能机器人的剧情设定在当时的技术上来讲是逆天想象,尽管这样的剧情在今天看来已经不那么“科幻”了,但在真实的世界中,人工智能要发展到剧中最初始的完美人机交互状态,都还有很长一段路要走。这条路有多长?

“人机交互智能的关键在于机器的‘大脑’,即机器对自然语言的理解和对话交互。从整个人工智能领域来看,目前在感知层面(视觉、听觉)的技术已经有非常大的突破,可以这么说,听觉感知是已经基本解决的问题。但自然语言理解和对话交互属于深层次的认知层面,它要涉及到对记忆机制、思考机制、决策机制的研究探索,在这方面的根本性的进展还很小。虽然基于大数据+深度学习的方法在语言理解和对话交互方面已经有些突破,但还远远不够。自然语言理解是智能人机对话的核心,也是关键瓶颈。”来自阿里云iDST的资深算法专家孙健(花名:千诀)提出了他的观点。

在2016年云栖大会现场,YunOS展出了首款搭载YunOS for Robot系统的Pepper。展台现场模拟了一个机场环境,由Pepper为乘客提供购票服务,并帮助乘客值机、引导购物等,类似一个“接待员”。这名“接待员”背后的语音技术和自然语言处理技术即来自孙健(千诀)所在的阿里云iDST这支团队。

人工智能如何具备理解用户和懂用户的能力?如何具备与用户自由对话的能力?如何实现主动和渐进式学习的能力……针对这一系列问题,采访了阿里云iDST资深算法专家孙健(千诀),采访从人机对话交互中的自然语言理解和人机对话方向展开。

受访嘉宾:

孙健,2002年毕业于北京邮电大学,信息工程学院博士,2008年5月加入阿里巴巴搜索技术研发中心。孙健主导的自然语言处理基础组件有力支撑和服务了阿里集团的电商搜索、神马网页搜索、高德地图搜索、阿里妈妈广告平台等核心业务,已经成为集团的基础设施和平台基础算法。目前是阿里云iDST语言理解和人机对话方向的负责人,资深技术专家,主导设计了阿里巴巴自然交互平台(Natural User Interface, NUI)。NUI平台的使命就是连接人-智能设备-互联网服务,让用户与设备进行更自然更智能的交互,从而让用户随时随地更便捷的享受到互联网服务。目前NUI平台广泛应用于天猫魔盒、YUNOS手机、智能音箱、汽车智能后视镜、ET机器人、pepper机器人、智能客服等各种设备和场景中。

以下为采访实录。


:能自我介绍下并谈谈所从事的工作吗?

千诀:整个智能语音交互团队的工作主要包括两个方面: 一个是让生活智能化,它是面向C用户;另一个是让服务智能化,它是面向B用户的。

所谓生活智能化,就是让每个C用户与智能设备(智能电视、智能音箱、机器人、互联网汽车、智能家居、智能手机等等)进行自然的人机对话交互,从而能够让用户享受到各种各样的互联网服务,让每个人的生活更加便捷更加智能。为此,我们打造了一套完整的智能自然交互平台(NUI,Natural user interface),NUI除了大家熟知的语音识别(ASR)和语音播报(TTS)外,还包括自然语言引擎 (NLU),对话引擎(Dialogue),问答引擎(Question Answering),聊天引擎(Chat)。那在自然语言处理方向上,我们主要打造这4个核心引擎:语言理解引擎、对话引擎、问答引擎和聊天引擎。语言理解引擎的职责就是理解用户所说的话其意图是什么,是买火车票还是导航还是实时路况等,如果用户意图是购买火车票,那目的地是哪里,什么时候出发呢?是要一等座还是二等座等等都是语言理解引擎的职责; 对话引擎就是根据用户意图和上下文来确定执行什么action(比如回答问题、执行操作、对意图不清晰的问题进一步澄清等);问答引擎的职责是针对用户的Question给出合适的答案;另外,在对话过程中还有聊天的需求,这是聊天引擎要解决的问题。

服务智能化主要是面向B用户,为传统企业(法院、银行、电信、电子商务等)打造行业解决方案,比如针对电子商务企业的智能客服解决方案,比如为法院打造庭审的实时语音记录和转写解决方案,从而大幅提供运营效率。

自然语言理解和对话交互类似人的大脑

:让机器读懂人类深奥的语言,同时以一种我们习惯的方式进行交互,解决这个问题的关键技术就是自然语言处理,在你看来,自然语言处理在人工智能领域处于怎样的位置?

千诀:在人机交互的过程中,语音识别就像耳朵帮助人“听见”(能实时把听到的语音转换成文字),自然语言理解和对话交互则类似人的大脑,让机器不仅能听见还能准确的理解话语的内容,并且作出适当的反馈;最后语音合成就像是嘴巴,把想法用语言告诉用户。

我们的判断是,人机交互智能的关键在于机器的“大脑”,即机器对自然语言的理解和对话交互。从整个人工智能领域来看,目前在感知层面(视觉、听觉)的技术已经有非常大的突破,可以这么说,听觉感知是已经基本解决的问题。但自然语言理解和对话交互属于深层次的认知层面,它要涉及到对记忆机制、推理机制、决策机制的研究探索,在这方面的根本性的进展还很小。虽然基于大数据+深度学习的方法在语言理解和对话交互方面已经有些突破,但还远远不够。自然语言理解是智能人机对话的核心,也是关键瓶颈。

人机对话过程中面临的关键技术挑战

:阿里云ET背后的人机对话有哪些关键技术挑战?

千诀:人机对话过程中的语言理解面临以下关键挑战:

  1. 语言表达的多样性,针对同一个意图,不同的用户有不同的表达方式;
  2. 语言本身的歧义性,针对同一句话,同时能够表达多个意图;
  3. 与书面语相比,口语语言有比较大的随意性,比如停顿、口头禅、顺序颠倒、不完整表达等;另外语音识别在噪音情况、有口音情况的表现也不完美。因此,语言理解要有很好的鲁棒性;
  4. 基于对话上下文的语言理解

针对这些挑战,我们在过去两年主要沉淀和积累了以下关键技术:

  1. 针对用户口语和语音识别的瑕疵有较好鲁棒性的深度神经网络语义理解模型;
  2. 目前大部分的人机对话基本都是单轮的,而我们开发和沉淀积累了基于对话上下文的用户语言理解;
  3. 针对用户口语和语音识别的瑕疵有较好鲁棒性的基于B-LSTM的结构化信息提取;
  4. 积累和建设了千万量级的、实时更新的大规模实体知识库;
  5. 设计和开发了对话的打断和返回机制,从而让人机对话具有较好的鲁棒性和流畅性;
  6. 设计和开发了支持对话在multi-domain之间自由跳转以及属性的carry-over机制;
  7. 基于深度神经网络的检索式和生成式有机融合的聊天引擎;
  8. 基于深度神经网络的融合多种语义相似度模型的问答引擎。

:阿里云ET背后的自然语言理解和人机对话目前在哪些领域有着落地应用?

千诀:基于iDST在语音、自然语言理解和人机对话方向的技术积累,我们打造了完整的自然交互平台(NUI,Natural user interface)。目前基于自然交互平台的智能交互服务已经成功应用于天猫魔盒、海尔电视、YUNOS手机(比如朵唯)、汽车智能后视镜、智能音箱、pepper机器人、支付宝智能客服等业务中,比如用户可以通过语音的自然交互方式与天猫魔盒进行多轮对话交互,可以快速便捷的搜索到用户想看的丰富的视频内容,用户还可以方便的实现对电视音量大小、屏幕亮度、快进快退等的控制。

规则与统计模型两派不是对立而是有机协同

:在自然语言处理的方式上,你如何看待规则与统计模型两派宗教之争?

千诀:我们认为在自然语言处理上,如果仅从算法层面来看,规则方法和统计模型好像是对立的。但如果从更高层面看,不仅不是对立的关系,规则方法和统计模型恰恰是有机协同和融合的关系:统计模型的优势在于它有比较好的泛化能力,有比较好的鲁棒性,能够以数据驱动的方法来持续的提升模型的效果;而规则方法在没有training data或training data很小情况下有非常大的优势,比较适合在系统冷启动场景下基于规则的方法快速开发一套效果有基本保证的系统,基于规则的方法也比较适合快速干预和解决某些严重bad case。

所以,我们认为这两个方法不是对立而是有机协同的关系,我们要思考的是,在语言理解和对话交互系统中怎么把这两种方法的优势都充分发挥出来并有机结合在一起,从而打造出更智能的机器和系统。

:你如何看待时下自然语言理解和对话交互技术的发展瓶颈、挑战,以及未来的发展方向?

千诀:为了让人和机器之间的对话交互达到人与人之间对话的自然流畅程度,在自然语言理解和对话交互的技术还存在非常大的挑战,比如

  1. 目前的语言理解还是针对特定一些领域(domain)的,这些domain都是预先定义好的。而open-domain的自然语言理解和表示还是一个很大的挑战;
  2. 目前的人机对话交互基本都是单轮对话,即使是多轮对话其只是考虑有限的上下文,针对完整对话历史的“记忆”机制仍然是很大的挑战,人类自己至今也没有弄明白人的大脑记忆机制。
  3. 持续自学习机制。我们希望未来的机器能够像baby一样,在对话的过程中不断学习,不断提高。

延伸阅读:

想进一步认识阿里云iDST智能语音交互技术,可点击访问深度专题:

时间: 2024-10-15 03:10:08

《西部世界》何日来袭?自然语言理解是智能人机对话的关键瓶颈的相关文章

科学式家|杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

「范式大学」由第四范式发起,致力于成为"数据科学家"的黄埔军校,校长为第四范式首席科学家,华人界首个国际人工智能协会AAAI Fellow.唯一的AAAI 华人执委杨强教授.   [范式大学]在探索AI工业化的同时,也关注最新学术研究成果.近日,杨强教授在[范式大学]内部课程中,与大家分享了他在 "生成式对抗网络模型" 和迁移学习等领域的独特见解和最新思考.在此特别感谢杨教授的博士生张颖华同学的帮助.   以下内容根据杨强教授演讲编写,略微有所删减. 有些人看过电视

自然语言理解(Natural Language Understanding)

1. 引言       Siri,Cortana,Google Now,小冰,度秘,随着技术的进步和自然人机交互需求的扩大,个人智能助理渐渐成了各大巨头争夺的下一个入口.这些智能助理尽管能力有大有小,但有一个共同特点--用户能通过"自然语言"与其交互,这比起传统的用关键词进行搜索的方式,显然是一个不小的进步.比如,当你说"订一张明天北京去杭州的机票,国航头等舱"时,一般的搜索引擎会给出如下的网页列表: 而我们的个人智能助理能直接给出你期望的答案: 要想从"

自然语言理解-从规则到深度学习

1. 引言 自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题.维基百科有如下描述[1]: Natural language understanding (NLU) is a subtopic of natural language processing in artificial intelligence that deals with machine reading comprehension. NLU is considered an AI-hard probl

通过西部世界来盘点近来人工智能研究的发展

<西部世界>背后的科学 简单回顾近几年的人工智能研究 警告:此文含电视剧<西部世界>剧透. (译者注:关于<西部世界>:故事设定在未来世界,在一个庞大的高科技成人主题乐园中,有着拟真人的机器"接待员"能让游客享尽情欲.暴力等欲望的放纵,主要叙述被称为"西部世界"的未来主题公园.它提供给游客杀戮与性欲的满足.但是在这世界下,各种暗流涌动.部分机器人出现自我觉醒,发现了自己只是作为故事角色的存在,并且想摆脱乐园对其的控制:乐园的管理层

学习笔记TF059:自然语言处理、智能聊天机器人

自然语言处理,语音处理.文本处理.语音识别(speech recognition),让计算机能够"听懂"人类语音,语音的文字信息"提取". 日本富国生命保险公司花170万美元安装人工智能系统,客户语言转换文本,分析词正面或负面.智能客服是人工能智能公司研究重点.循环神经网络(recurrent neural network,RNN)模型. 模型选择.每一个矩形是一个向量,箭头表示函数.最下面一行输入向量,最上面一行输出向量,中间一行RNN状态.一对一,没用RNN,如

腾讯要AI in All:西部世界导演和腾讯COO刚刚一起聊了聊人为什么要活着

这个画面是否有点像科幻电影里的未来生化科技场景? 不是演员,也没有加特效--画面里是MIT教授Hugh Herr,他正在成都参加2017年腾讯全球合作伙伴大会. Hugh Herr是MIT Media Lab的成员,他的研究方向是能用神经系统控制义肢的仿生机器人学.由于他在生物机电学方面的杰出贡献,2011年<时代>杂志将他评为"仿生时代领导者". 大会现场,还出现了另一位"科幻"人物--<西部世界>导演和编剧Jonathan Nolan 他

《西部世界》暗示了大数据人工智能什么

本文讲的是<西部世界>暗示了大数据人工智能什么[IT168评论]上个月,听朋友说起最近有一部神剧<西部世界>在网上风靡.听这个电视剧的名字有点耳熟,在1973年,Michael Crichton执导的<西部世界>一炮走红,著名的光头影帝Yul Brynner扮演的机器人杀手是许多80后的童年阴影. 不同的是,这部新剧讲述的是在未来一座高科技主题乐园里,智能机器人与游客一起进行角色扮演,游客在公园内的生活本身就是娱乐.乐园会追踪和记录游客的行为,通过大数据的分析设计游戏新

《中国人工智能学会通讯》——1.17 自然语言理解

1.17 自然语言理解 自然语言理解的目的是为聊天任务生成一种语义表示形式[8] .通常来说,聊天机器人系统中的自然语言理解功能包括用户意图识别.用户情感识别.指代消解.省略恢复.回复确认及拒识判断等技术. 1)用户意图识别:用户意图又包括显式意图和隐式意图,显示意图通常对应一个明确的需求,如用户输入"我想预定一个标准间",明确表明了想要预定房间的意图:而隐式意图则较难判断,如用户输入"我的手机用了三年了",有可能想要换一个手机或者显示其手机性能和质量良好. 2)用

专家齐聚讲述人工智能时代的自然问答、聊天机器人与自然语言理解

在人工智能时代,以自然语言理解为核心技术的问答.对话.聊天机器人已经成为产业界和学术界的关注热点.其中的关键技术包括:自动问答.对话管理.自然语言生成.机器翻译.文本语义匹配.用户画像以及面向自然语言理解的深度学习等. 11月8-10日,由中国计算机学会CCF主办的学科前沿讲习班<自动问答.聊天机器人与自然语言理解>将邀请六位学术界和工业界的著名专家.学者对问答.对话.聊天场景下自然语言理解的基础理论.重要算法等热点问题进行系统的讲解.目的是为青年学者和研究生提供一个三天的学习和交流平台,帮助