一部剧情烧脑包含各种炸裂设定的神剧,迎来了观众如潮的好评。如同人工智能距离其出发的原点已经有60年,《西部世界》距离它的原作前身也已有40余年之久。这是一部根据早期同名科幻电影改编的剧集。“西部世界”是一个高科技的人造主题公园,公园中的“人”——从“接待员“到“居民”,都是与真人一般无二的机器人。剧集的推进为观者抛出一系列问题:“始终按照人类设定循环往复的机器人,何时真正自我觉醒?“”机器人是否能够拥有自主意识?“……剧情将我们带入一场关于人工智能的深刻讨论。
原作1973年的电影,高智能机器人的剧情设定在当时的技术上来讲是逆天想象,尽管这样的剧情在今天看来已经不那么“科幻”了,但在真实的世界中,人工智能要发展到剧中最初始的完美人机交互状态,都还有很长一段路要走。这条路有多长?
“人机交互智能的关键在于机器的‘大脑’,即机器对自然语言的理解和对话交互。从整个人工智能领域来看,目前在感知层面(视觉、听觉)的技术已经有非常大的突破,可以这么说,听觉感知是已经基本解决的问题。但自然语言理解和对话交互属于深层次的认知层面,它要涉及到对记忆机制、思考机制、决策机制的研究探索,在这方面的根本性的进展还很小。虽然基于大数据+深度学习的方法在语言理解和对话交互方面已经有些突破,但还远远不够。自然语言理解是智能人机对话的核心,也是关键瓶颈。”来自阿里云iDST的资深算法专家孙健(花名:千诀)提出了他的观点。
在2016年云栖大会现场,YunOS展出了首款搭载YunOS for Robot系统的Pepper。展台现场模拟了一个机场环境,由Pepper为乘客提供购票服务,并帮助乘客值机、引导购物等,类似一个“接待员”。这名“接待员”背后的语音技术和自然语言处理技术即来自孙健(千诀)所在的阿里云iDST这支团队。
人工智能如何具备理解用户和懂用户的能力?如何具备与用户自由对话的能力?如何实现主动和渐进式学习的能力……针对这一系列问题,采访了阿里云iDST资深算法专家孙健(千诀),采访从人机对话交互中的自然语言理解和人机对话方向展开。
受访嘉宾:
孙健,2002年毕业于北京邮电大学,信息工程学院博士,2008年5月加入阿里巴巴搜索技术研发中心。孙健主导的自然语言处理基础组件有力支撑和服务了阿里集团的电商搜索、神马网页搜索、高德地图搜索、阿里妈妈广告平台等核心业务,已经成为集团的基础设施和平台基础算法。目前是阿里云iDST语言理解和人机对话方向的负责人,资深技术专家,主导设计了阿里巴巴自然交互平台(Natural User Interface, NUI)。NUI平台的使命就是连接人-智能设备-互联网服务,让用户与设备进行更自然更智能的交互,从而让用户随时随地更便捷的享受到互联网服务。目前NUI平台广泛应用于天猫魔盒、YUNOS手机、智能音箱、汽车智能后视镜、ET机器人、pepper机器人、智能客服等各种设备和场景中。
以下为采访实录。
:能自我介绍下并谈谈所从事的工作吗?
千诀:整个智能语音交互团队的工作主要包括两个方面: 一个是让生活智能化,它是面向C用户;另一个是让服务智能化,它是面向B用户的。
所谓生活智能化,就是让每个C用户与智能设备(智能电视、智能音箱、机器人、互联网汽车、智能家居、智能手机等等)进行自然的人机对话交互,从而能够让用户享受到各种各样的互联网服务,让每个人的生活更加便捷更加智能。为此,我们打造了一套完整的智能自然交互平台(NUI,Natural user interface),NUI除了大家熟知的语音识别(ASR)和语音播报(TTS)外,还包括自然语言引擎 (NLU),对话引擎(Dialogue),问答引擎(Question Answering),聊天引擎(Chat)。那在自然语言处理方向上,我们主要打造这4个核心引擎:语言理解引擎、对话引擎、问答引擎和聊天引擎。语言理解引擎的职责就是理解用户所说的话其意图是什么,是买火车票还是导航还是实时路况等,如果用户意图是购买火车票,那目的地是哪里,什么时候出发呢?是要一等座还是二等座等等都是语言理解引擎的职责; 对话引擎就是根据用户意图和上下文来确定执行什么action(比如回答问题、执行操作、对意图不清晰的问题进一步澄清等);问答引擎的职责是针对用户的Question给出合适的答案;另外,在对话过程中还有聊天的需求,这是聊天引擎要解决的问题。
服务智能化主要是面向B用户,为传统企业(法院、银行、电信、电子商务等)打造行业解决方案,比如针对电子商务企业的智能客服解决方案,比如为法院打造庭审的实时语音记录和转写解决方案,从而大幅提供运营效率。
自然语言理解和对话交互类似人的大脑
:让机器读懂人类深奥的语言,同时以一种我们习惯的方式进行交互,解决这个问题的关键技术就是自然语言处理,在你看来,自然语言处理在人工智能领域处于怎样的位置?
千诀:在人机交互的过程中,语音识别就像耳朵帮助人“听见”(能实时把听到的语音转换成文字),自然语言理解和对话交互则类似人的大脑,让机器不仅能听见还能准确的理解话语的内容,并且作出适当的反馈;最后语音合成就像是嘴巴,把想法用语言告诉用户。
我们的判断是,人机交互智能的关键在于机器的“大脑”,即机器对自然语言的理解和对话交互。从整个人工智能领域来看,目前在感知层面(视觉、听觉)的技术已经有非常大的突破,可以这么说,听觉感知是已经基本解决的问题。但自然语言理解和对话交互属于深层次的认知层面,它要涉及到对记忆机制、推理机制、决策机制的研究探索,在这方面的根本性的进展还很小。虽然基于大数据+深度学习的方法在语言理解和对话交互方面已经有些突破,但还远远不够。自然语言理解是智能人机对话的核心,也是关键瓶颈。
人机对话过程中面临的关键技术挑战
:阿里云ET背后的人机对话有哪些关键技术挑战?
千诀:人机对话过程中的语言理解面临以下关键挑战:
- 语言表达的多样性,针对同一个意图,不同的用户有不同的表达方式;
- 语言本身的歧义性,针对同一句话,同时能够表达多个意图;
- 与书面语相比,口语语言有比较大的随意性,比如停顿、口头禅、顺序颠倒、不完整表达等;另外语音识别在噪音情况、有口音情况的表现也不完美。因此,语言理解要有很好的鲁棒性;
- 基于对话上下文的语言理解
针对这些挑战,我们在过去两年主要沉淀和积累了以下关键技术:
- 针对用户口语和语音识别的瑕疵有较好鲁棒性的深度神经网络语义理解模型;
- 目前大部分的人机对话基本都是单轮的,而我们开发和沉淀积累了基于对话上下文的用户语言理解;
- 针对用户口语和语音识别的瑕疵有较好鲁棒性的基于B-LSTM的结构化信息提取;
- 积累和建设了千万量级的、实时更新的大规模实体知识库;
- 设计和开发了对话的打断和返回机制,从而让人机对话具有较好的鲁棒性和流畅性;
- 设计和开发了支持对话在multi-domain之间自由跳转以及属性的carry-over机制;
- 基于深度神经网络的检索式和生成式有机融合的聊天引擎;
- 基于深度神经网络的融合多种语义相似度模型的问答引擎。
:阿里云ET背后的自然语言理解和人机对话目前在哪些领域有着落地应用?
千诀:基于iDST在语音、自然语言理解和人机对话方向的技术积累,我们打造了完整的自然交互平台(NUI,Natural user interface)。目前基于自然交互平台的智能交互服务已经成功应用于天猫魔盒、海尔电视、YUNOS手机(比如朵唯)、汽车智能后视镜、智能音箱、pepper机器人、支付宝智能客服等业务中,比如用户可以通过语音的自然交互方式与天猫魔盒进行多轮对话交互,可以快速便捷的搜索到用户想看的丰富的视频内容,用户还可以方便的实现对电视音量大小、屏幕亮度、快进快退等的控制。
规则与统计模型两派不是对立而是有机协同
:在自然语言处理的方式上,你如何看待规则与统计模型两派宗教之争?
千诀:我们认为在自然语言处理上,如果仅从算法层面来看,规则方法和统计模型好像是对立的。但如果从更高层面看,不仅不是对立的关系,规则方法和统计模型恰恰是有机协同和融合的关系:统计模型的优势在于它有比较好的泛化能力,有比较好的鲁棒性,能够以数据驱动的方法来持续的提升模型的效果;而规则方法在没有training data或training data很小情况下有非常大的优势,比较适合在系统冷启动场景下基于规则的方法快速开发一套效果有基本保证的系统,基于规则的方法也比较适合快速干预和解决某些严重bad case。
所以,我们认为这两个方法不是对立而是有机协同的关系,我们要思考的是,在语言理解和对话交互系统中怎么把这两种方法的优势都充分发挥出来并有机结合在一起,从而打造出更智能的机器和系统。
:你如何看待时下自然语言理解和对话交互技术的发展瓶颈、挑战,以及未来的发展方向?
千诀:为了让人和机器之间的对话交互达到人与人之间对话的自然流畅程度,在自然语言理解和对话交互的技术还存在非常大的挑战,比如
- 目前的语言理解还是针对特定一些领域(domain)的,这些domain都是预先定义好的。而open-domain的自然语言理解和表示还是一个很大的挑战;
- 目前的人机对话交互基本都是单轮对话,即使是多轮对话其只是考虑有限的上下文,针对完整对话历史的“记忆”机制仍然是很大的挑战,人类自己至今也没有弄明白人的大脑记忆机制。
- 持续自学习机制。我们希望未来的机器能够像baby一样,在对话的过程中不断学习,不断提高。
延伸阅读:
想进一步认识阿里云iDST智能语音交互技术,可点击访问深度专题: