专访鄢志杰:地铁进入语音购票时代,深度解读下一代人机语音交互技术

上海作为全球最繁华的都市之一,其城市轨道交通极其发达。然而现有的地铁线路网络复杂,购票步骤繁琐,难以满足乘客智能化、自动化语音购票的强烈需求。基于此诉求,阿里巴巴达摩院携手上海地铁,开展地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。

阿里巴巴iDST智能语音交互负责人鄢志杰

项目背景

作为全球最繁华的都市之一,上海的城市轨道交通工作日客流量超过1100万,位居全国之首,世界第二;截至目前,上海地铁已有16条线路、374个站点,线路总长617公里(含磁悬浮),而预计到2020年将达到800公里。如此繁重的客流压力下,自然带来了技术升级的智能化购票需求。

鄢志杰表示,以往乘客需要依次选择线路、站点、购票张数,购票步骤极为繁琐;而且在乘客事先无法得知具体线路和站点的情况下,只知目的地却不知应坐到哪一站、如何换乘。阿里巴巴与上海申通地铁签署的全面合作战略协议,就是要将阿里巴巴全球前沿的人工智能和大数据技术落地上海地铁,推出能让市民以免唤醒的自然人机交互方式实现在地铁售票机上快速、便捷的购票操作,这些操作包括指定站名或票价购票、目的地模糊搜索购票等功能。

事实上,阿里巴巴在智能语音交互技术上的投入已有数年,目前已形成了杭州、北京、西雅图、硅谷、新加坡五地联动的实验室布局;并且随着达摩院的成立,越来越多的人才正加速向阿里巴巴集聚。上海地铁语音售票机正是源于iDST语音团队此前一个略带神秘感的秘密孵化项目——来自麦克风阵列硬件、语音信号处理、计算机视觉、语音识别和对话系统的科学家们在一次头脑风暴中,判断出若将某些技术做重点攻关、辅以多模态融合及全链路端到端的集成优化,有可能突破真实嘈杂环境下远场语音识别的技术瓶颈。一开始,只有很少的“特种部队”投入到关键技术的研发,这其中就包括此前刚刚加入iDST西雅图实验室的冯津伟博士,前Polycom(宝利通)首席工程师;同时,另一位iDST的计算机视觉大牛任小枫所领导的团队,也为该项目提供了多目标人脸检测和跟踪技术。

“这个孵化项目在取得初步研究成果后,正巧遇到了上海地铁集团项目。”鄢志杰谈到,地铁车站内车声、人声、广播声在封闭空间内形成强噪声复杂环境,加上上海地铁的线路复杂性带来的用户购票痛点,是阿里巴巴这项先进技术最好的落地场景和试金石。

技术解读

上海地铁语音售票机使用了达摩院的下一代人机交互方向的最新研究成果,即“多模态智能语音交互解决方案”,它由数个子系统组成,包括大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。

鄢志杰介绍到,整套方案由阿里巴巴iDST自主研发,其中包含了iDST在语音增强、声源定位、人脸和图像识别、远场语音识别、语音合成、自然语言处理、对话管理、多模融合人机交互等方面的最新前沿研究成果。此外,整套系统还深入整合了支付宝的扫码支付,并展示了未来人脸支付在购票场景的应用。同时,充分结合了阿里的高德地图在地理数据方面的优势,实现了围绕地铁的模糊地点购票乘车指引和路径规划——所有的核心技术均为阿里巴巴独家/自有专利技术,并将在后续逐步对外公开。

目前,项目实现的具体功能包括有:

1.公众场所强噪声环境下的高准确率远场语音识别:当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。此次针对地铁强噪声环境,项目首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。并且,针对地铁售票机的时变空间,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,保障每一次流畅的语音交互。

2.免唤醒主动语音交互:目前市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。上海地铁语音售票机通过“语音+视觉”多模态融合技术,能够自动检测乘客走近售票机的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。

3.支持复杂口语理解并自我进化的对话系统:用户面对机器表达时往往存在语气词、犹豫、停顿、重复等口语化表达,繁琐的多轮询问确认式对话也使得主流的人机交互略显呆板。上海地铁语音售票机能够理解这些口语化表达,并不断从乘客真实对话模式中进行自我进化,变得越来越智能。

“下一代人机交互,是阿里达摩院首批公布的重点研究方向之一。”他表示,其他重点研究方向还包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等。

应用前景

历时短短半个月的搭建,目前上海地铁语音售票概念机已在线下展示试用,实施效果也远远超出预期。此次的技术成果,无疑也将为自然人机交互技术打开一片全新的世界。

对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地,而未来阿里巴巴将会将这项技术带入人们的生活,将有望应用于火车站、地铁、机场等公共服务,餐厅、贩卖机、零售店等新零售行业,以及智能前台、交互式导览等企业服务场景中,如餐厅快速点餐机、咖啡售卖机、公司智能前台、商场导览机、机场问询机等等。

作为阿里巴巴技术中台的一股重要力量,iDST在研发新技术的同时,也将新技术在阿里云上进行产品化落地和商业化输出,目前在阿里云的产品集合名称为“ET智能语音交互”,技术成果也已通过阿里云人工智能ET不断对外输出。在语音交互产品方面,阿里iDST研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端。此外在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景也有成功应用。

“接下来,阿里会与申通集团一道,将上海地铁语音售票概念机迅速推向实际落地。”最后,鄢志杰如是说。

时间: 2024-08-02 12:41:13

专访鄢志杰:地铁进入语音购票时代,深度解读下一代人机语音交互技术的相关文章

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

阿里鄢志杰博士:“达摩院”要做下一代颠覆性的人机交互

人机之间的自然交互一直是人工智能领域的一个美好愿景,而语音是人机交互中最重要的手段之一.随着人工智能的迅速崛起,新一轮语音技术变革已经跃然眼前,成为科技巨头们争相攻下的堡垒. 近日,飞象网记者对阿里iDST (Institute of Data Science and Technologies) 智能语音交互团队总监鄢志杰博士进行了专访,从阿里iDST发展战略.平台建设.自然人机交互技术等多角度揭开阿里智能语音交互的神秘面纱. "达摩院"要做下一代颠覆性的人机交互 PC时代,人们与机器

语音购票、刷脸进站......上海地铁和阿里要让你出行更方便

今天,上海申通地铁集团与阿里巴巴.蚂蚁金服联合宣布,三方达成战略合作,签约仪式上,阿里巴巴最新研发的语音购票.刷脸进站.智能客流分析等多项技术首度惊艳亮相.虽然这些技术才刚刚完成实验室测试,进入样机研制阶段,但是未来,都将逐步应用于上海地铁. 上海地铁建设的"METRO大都会"App将引入阿里的技术,方便上海老百姓出行.预计在明年初,上海地铁就将支持App扫码过闸,并支持支付宝付款. 明年初扫码进站 未来可刷脸进站 一个多月前,上海就在磁悬浮首先试点了扫码进站,上海地铁计划在明年初,在

语音购票、刷脸进站:上海联手阿里打造全球首个AI地铁之城

对着售票机喊句话就能买到地铁票?这个在过去看来完全无法想象的事,在阿里的黑科技加持下已成现实. 12月5日,语音购票.刷脸进站.智能客流监测等多项"黑科技"首度惊艳亮相上海.这三项技术是今年10月上海地铁牵手阿里云以来的最新阶段成果.目前,这些技术已经完成实验室测试,进入样机研制阶段,未来都将应用于上海地铁. 乘过地铁的人都知道,只有明确知道目的地所处的线路和站点时,乘客才能自助购票.作为全球里程数最长的地铁,上海地铁共有17条线路.367个站点,购票之难可想而知.而现在,只需对售票机

专访王志海:棱镜门后企业数据安全之恙

本文讲的是专访王志海:棱镜门后企业数据安全之恙,近日,斯诺登爆料美国"棱镜计划"成为大家关注的焦点,这让山姆大叔的自由.尊重人权的伪形象瞬间垮塌.我们暂且不说"棱镜事件"带来的国家层面的安全问题,仅就企业来说,核心数据时刻面临着被窃取的风险.威胁已至,如果企业不想重蹈山姆大叔的尴尬,那么此刻就要重视自身数据安全防护体系的建设了! 企业加强核心数据安全的防护已经刻不容缓,这次棱镜门的曝光给企业数据安全带来了哪些警示?如何提升企业保护数据泄密的意识?企业该如何做好数据安

常志杰:根据经验谈二级目录和二级域名的选择

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 相信站长都在二级目录和二级域名的选择上纠结过,虽然如ZAC等一些SEO的领军人物都曾分析过二级目录和二级域名在搜索引擎眼中的区别.但是实践得出的结论往往和理论会有一些出入,笔者也曾在此上面纠结过,并且已经经历过由二级目录转二级域名,再由二级域名转二级目录和二级域名结合使用的过程.今天就与大家分享一下这个过程中的一些结论: 秀女网建立初期,与绝

专访王志海:做受尊敬的信息安全企业

本文讲的是专访王志海:做受尊敬的信息安全企业,"做一个受尊敬的企业就要讲诚信,首先对员工.对合作伙伴.对客户都要讲诚信,其次是在行业里必须是数一数二的领头羊的企业,比其他的企业回馈社会做出的贡献更多,这两点合起来才能成为受尊敬的信息安全企业.这两点都不容易,作为企业的一个愿景,我们在往这个方向努力,日常的一些事情也在以这个为准则去做!"在宽敞明亮的总裁办公室里王总这样向记者描述着企业的愿景. 第一次迈进明朝万达刚刚搬迁过来的全新的办公大楼,给记者的第一印象就是公司形象墙上的这句话:&q

智能机时代:上网满意度低于语音

文/毛启盈市场调研公司IDC发布报告称,全球智能手机出货量2.58亿.同一天,爱立信消费者研究室发布报告显示,83%的中国城市智能手机用户每天使用手机浏览网页,而三分之一用户表示不满意.智能手机时代,上网满意度低于语音今天,在日本东京举行的商业创新论坛上,爱立信消费者实验室通过对北京.东京.圣保罗.纽约.伦敦等地智能手机用户的调查显示,用户不满意主要来自以下几个方面:1.83%的中国城市智能手机用户每天使用手机浏览网页,然而,三分之一的用户都会遇到各种各样问题,且用户对手机上网满意度低于打电话和

科大讯飞语音转文字,并想保存语音文件

问题描述 科大讯飞语音转文字,并想保存语音文件 使用科大讯飞语音识别功能,在语音转文字的同时向保留语音文件,如何处理?!