荣威RX5与阿里智能语音的“修行”故事

以下为精彩视频内容整理:


Ⅰ阿里智能语音交互团队的成果展示

阿里的智能算法团队是从2014年底正式开始起步的。3年的时间里,在商业及公共场所方面,团队做了有全国近300家法院已经投入使用的智能语音庭审产品、包括2016年杭州云栖大会等系列100多场大会的实时字幕语音产品、超过10家企业使用的节省70%人工审核成本的视频审核产品,还有使用时长超过1千万小时的智能语音客服机器人等产品;在用户方面,团队还做了NUI(Natural User Interface)自然交互平台系列产品,例如和海尔合作的海尔人工智能电视、和上汽合作的荣威RX5互联网汽车、前不久上线的上海地铁语音售票机等产品。

智能语音交互技术是什么?就是通过说话,让阿里所掌握的导航和音乐等线上应用,和用户的手机、电脑、汽车等终端进行联动的技术。阿里智能语音交互团队在成立初期的发展方向有两个,一个是快速占领市场,另一个是开发全链路完整有效的技术。如果要求快速占领市场,一些关键的环节上不可避免的需要使用市场上已经发布的技术。

运用成型技术的好处是开发速度快,坏处是遇到技术壁垒时解决问题程序复杂,并且拼凑出的产品很难达到最好的运行效果。如果要求完整的技术能力,那么团队的组建方面短时间很难达到成型产品的要求。

幸运的是从语音团队组建到项目运行,我们走了一条速度快同时技术比较完整的路。从麦克风的硬件设计到具体的产出,都有阿里自己人在做全链路投资。虽然过程很痛苦,招聘也很困难。但是我们找到了愿意跨界到互联网公司的科学家、甚至是物理学家,让他们融入团队并且在团队中发挥独特的价值,是相当不容易的事情。团队经过三年时间完成了技术的全栈积累,让每一个关键的任务点都有相应的顶尖人才在把控对应工作。

回到进行智能语音交互的初衷——做可以落地实施的人工智能,我们可以从技术、产品、商业这三个维度来进行思考和分析。后面我会以荣威RX5互联网汽车作为案例,讲解如何在团队实践下把这三个维度有机的串联到一起。

Ⅱ荣威RX5背后的技术、产品和商业实践

什么是技术型团队?就是团队能通过努力去拥有完全自主可控的、世界一流的技术点,并且把技术点串联起来去持续的创新技术和产品。技术占最小区域的意思是技术不是万能的,但是没有技术也是万万不能的。第二个是产品,光有高技术是不可能做出一个高质量的产品,落地实施的过程中各种细节当中的魔鬼会一一显现,这是团队实施过程中的深刻体会。以语音交互为例,特别需要有业界顶尖的交互设计师或者产品经理把现有的技术组合成一个用户认可的产品,可偏偏这样的设计师和产品经理少之又少。很多产品经理不是语音交互行业出身,他们往往从常识方面去设计语音交互产品,但这样设计的背后是缺乏理论基础的。同样缺少的是能落地的科学家技术团队。最后是商业,好的产品是要被市场所检验的。回到语音交互行业,百箱大战——一百个智能音箱的战争,大家是否思考清楚做这个产品的初衷,定价定在哪个范围,市场容量是如何,怎样通过供应链等完全非技术手段减低成本?这些问题要在做产品之初就思考清楚,正所谓谋定而后动。

荣威RX5互联网汽车是阿里和上汽合资成立的斑马网络做出的新型互联网汽车。这个汽车在8月份销量2万辆,同比增长143%,已经成为现在互联网汽车行业的标杆型产品。我们就荣威RX5为例,来讲述技术、产品、商业这个闭环在阿里的实践和思考。

从商业方向考虑,阿里一开始就打算直接造自己的汽车,因为我们相信平台公司的价值。阿里和上汽合作成立了一家合资公司——斑马网络,专攻车载智能系统。这样的模式反而能发挥云+端的各种优势——端上有上汽,云上有阿里。

三年前的一次头脑风暴成就了荣威RX5,也奠定了互联网汽车的基础轮廓。现在看来特别自然的产品形态在三年前初创时期还是冒着很大风险的。首先我们确定了车的定价:10-15万,这是一个很重要的因素。第二步确定了车型是SUV,而不是轿车或者其他车型。现在数据显示SUV品类在中国的畅销程度是空前的。第三步是确定互联网汽车应该具有哪些功能?团队选择随时在线、地图即桌面、全语音操控这三项基本功能。荣威RX5是沉浸式开发,采用地图即桌面,其他功能全部使用在线语音小助手对用户进行服务,实行全语音操控。通过运用技术,汽车终端和云上的地图、音乐、电话等功能相连接,经过“技能”在云端不断升级和进化,使得产品越来越受到欢迎。

第一代机车由于阿里语音团队刚刚建立来不及进行技术攻克,所以当时选用了世界上最成熟的第三方vendor提供的语音交互技术。真正使用阿里技术的是第二代机车。自主开发的好处当然不言而喻,诸如独立自主、说干就干、响应快速、成本优势、云端不断解锁技能等。但是马车不是吹跑的,项目实施过程中问题也会接踵而至。自主需要勇气,同时也需要底气。做车载的技术替换,仅仅复制上一代车的能力远远满足不了用户和老板的需求。这就给技术团队提出了很大的挑战,不仅要迅速的追上第一代机车的技术能力,甚至还要在某一些方面超越之前的技术,要有亮点。通过技术团队的详细分析和梳理,团队发现上一代机车最大的痛点就是只有主驾驶可以使用全套的语音操控系统,副驾驶的唤醒完全不起作用。第二代机车针对这个痛点,做了主驾副驾均可使用功能。技术的关键点是主驾副驾需要互不干扰的进行语音交互,例如坐在副驾驶位置上的人正在进行电话沟通,坐在主驾位置上的人可以完全不受影响的对互联网车发布指令。在如此狭小的空间内,做到这一点需要非常强的信号处理能力。通过把第二路的声源作为噪音去处理,达到不会影响第一路纯净信号指令能正常操作的目的。

更大的难点集中在整个的系统升级过程中硬件设施是不允许升级的。我们在封顶的左边和右边分别设置两排麦克风的阵列作为收集信号装置,分别指向主驾驶和副驾驶。指向主驾驶的时候,副驾驶作为干扰源,把实时收集信号中作为干扰源的部分减掉。于是这台机器可以耳听两方,同时监听两路信号。整个运算力通过low frame rate 声学模型的分解在完全没有硬件升级的状况下降低运算量,让车载系统的召回率和误唤醒的指标不会有明显的变化。

第二代机车还升级了比如兴趣点的全语音搜索,one-shot命令直达,还有互联网的迭代更新等功能,可以让汽车变得越来越好玩。

最后进行落地实施过程中,团队成员们能够通过自己的实践和能力把在天上红红火火的AI变成底下实实在在的产品,是一门很深的功夫。阿里讲究落地实施,对团队的成员基本要求是科学家要会“武术”,不但要研究和开发做的好,同时落地的本事不可少。这就是阿里语音交互团队的“武术”修行之路,时间不止,交互不休,希望演讲能给大家带来一些思考和共鸣。

时间: 2024-09-20 11:44:34

荣威RX5与阿里智能语音的“修行”故事的相关文章

阿里智能语音平台助力人机交互

摘要:在云栖大会上,天猫精灵幕后团队--人工智能实验室的聂再清为大家介绍了语音交互平台的运作机理和完善方法.在智能化普及程度逐渐加深的当代,人机交互也就成为了丞待解决的问题.为了解决这一难题,阿里巴巴的人工智能实验室对智能语音交互平台进行了深入研究和全面优化. 以下为精彩视频内容整理:优化人机交互下阶段的目标 人机交互平台的发展经历了字符阶段.图像阶段.触屏阶段,而触屏阶段的普及在带来便利的同时营业产生了诸多不便,"低头族"的产生便是最好的证明.人类的需求是永不止步的,需要将人的眼睛拘

智能语音交互:阿里的研究和实践

云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲.本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出.   在众多的人工智能应用中,智能语音交互是大众能够最近距离接触到的一个.从几年前的手机语音助手,到近年来的互联网汽车.智能音箱.电视.IoT设备等,语音交互正以前所未有的深度和广度,融入雨后春笋般涌现的各种智能设备中.国内外各大互联网公司和众多初创企业都瞄准了智能语音交互这一重要领域,并视其为下一

阿里初敏博士:解读智能语音如何在客服智能化上落地?

你是否对2016年云栖大会现场直播的实时字幕好奇?是否想了解语言方面的智能化怎样与客服相结合,怎样在客服智能化上落地?其实,收集数据是我们面临的最大挑战,这是时间.人力成本等的核算的问题.技术上,任何一个语言,包括英语.汉语.方言等等,难度差别并不多,识别相对简单,难点在数据. 传统客服模式不能满足业务需求 阿里最初开始做智能客服的时候是因为阿里自己的客服团队.公司业务规模很大,客服数量也非常大,到了一定的规模之后,就会发现整个客服的人力成本是高昂的.进一步说,很多时候靠增加人来解决问题已经变得

阿里云智能语音交互技术实践干货分享

阿里云技术总监/研发总监陈一宁博士通过直播分享了<阿里云智能语音交互技术实践>.他首先介绍了智能语音面临的技术挑战,然后对智能语音技术做了详细介绍.其中,他主要分享了阿里云使用的BLSTM & LFR声学模型的优化过程,并对基于深度学习的自然语言理解的不同场景进行了详细分享.   以下内容根据直播视频整理而成.   阿里云智能语音概述 阿里云智能语音交互=语音+自然语言处理,语音包括语音识别.语音合成.声纹等,自然语言处理包括自然语言理解.对话系统.问答系统等.阿里云智能语音团队不是一

专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚.为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的. 鄢志杰简介 鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监.在 2015 年加入阿里巴巴前,就职于

阿里云智能语音交互iOS接入FAQ

阿里云智能语音交互iOS接入FAQ 问题1 : bitcode. ld: 'xxx/NlsClientSDK.framework/NlsClientSDK(NlsRecognizer.o)' does not contain bitcode. You must rebuild it with bitcode enabled (Xcode setting ENABLE_BITCODE), obtain an updated library from the vendor, or disable b

阿里云智能语音交互服务导览

阿里云智能语音交互 产品介绍 & 接口文档 阿里云iDST的智能语音交互服务主要有以下几个大类: 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出"能听"的应用. 语音合成服务TTS :将文字转换为声音的能力快速集成,打造出"会说"的应用. 自然语音处理NLU :集语义解析.智能问答.意图识别等功能于一体,让应用具备理解能力. 语音识别服务ASR: **在线 实时 短语音识别:一句话识别 支持流式和非流式的语音识别模式 应用模式: 语音输入法.语

揭秘阿里巴巴智能语音交互技术

当一个产品经理在规划产品中的语音功能时,在大多数情况下,他需要的不仅仅是语音识别,还需要其背后的智能交互--理解问题.回答问题.在需要的时候发问.能根据用户回答决策等. 阿里云智能语音交互,就是这样的一款产品.它基于语音和自然语言技术构建的在线服务,为开发者在产品中提供"能听.会说.懂你"式的智能人机交互体验. 阿里云智能语音交互背后实际上包含三个层次技术:语音技术.智能化技术和大数据技术. 语音技术: 语音识别(ASR)--把人讲的话转成文字 语音合成(TTS)--把文字说出来 声纹

AI与大众最近的接触——智能语音交互

互联网的变迁过程 互联网的变迁主要体现在内容.入口.人机界面三个方面. 互联网内容的变迁 图一 互联网内容的变迁 时至今日,互联网的内容已经发生了很多变迁,早期的互联网以获取信息为主,例如人们通过Email收发信息.在BBS上灌水.通过门户网站了解新闻等等.阿里巴巴的起点也是从Alibaba.com开始,最初仅是为国外买家获取信息.购买国内供应商的产品起到牵线搭桥的作用. 随着网络的发展,互联网不仅仅再局限于获取信息,消费者逐渐可以通过淘宝.天猫.聚划算等网站购买生活必须品:现在,除了提供信息和