阿里云年会人机大战-技术大揭秘

引言

在上一篇文章中人工智能PK金牌速记员之实战录,我们讲述了阿里云年会人机大战背后的故事。技术Geek们可能就好奇了?现场的实时转录系统是怎么回事? 其中核心的语音识别系统到底是什么,工作原理是什么? 阿里云iDST的语音识别系统准确率为什么可以做到这么高,有什么独得之秘?本文将会将这些问题的答案一一揭晓。

人机大战之现场

 

阿里云年会现场,图中左边屏幕显示的是语音识别,右边屏幕显示的是人工速记

上图是视频的截图,展示的就是阿里云年会人机大战的现场情形, 阿里云的掌门人孙权在台上演讲,自动语音系统和速记员分别给出演讲的文本内容,同时投屏,现场PK正确率。其中,左边的屏幕展示语音识别的结果,作为字幕显示在实时图像上;另一边则是全球速记亚军姜毅先生将演讲内容速记下来,以白屏黑字的方式显示给观众。

现在问题来了,阿里云iDST的系统是如何做到实时转录并将语音识别的结果作为字幕展示给观众的呢?

实时转录系统架构

这里给出了演示系统的软硬件架构如下图所示。

  • 音频方案
    在音频方面,现场嘉宾的讲话内容通过无线麦克风传递到USB声卡。为了实现同时语音识别和现场放音的效果,USB声卡的输出中一路送到调音台然后到现场的扬声器播放给观众,另一路则通过PC软件进行音频采集,将采集到的音频数据发送到阿里云语音服务器上运行语音识别,并将语音识别的文本结果实时返回,为实时产生字幕做准备。

 

  • 视频方案
    在视频方面,现场也会产生两路视频输入: 一方面摄影师通过摄像机拍摄嘉宾演讲的画面传回到中控台;另一方面,流式返回的语音识别结果文本通过渲染产生滚动的字幕效果,并展示在一个纯绿屏图像上。最后,在中控台处,通过抠屏软件将滚动的字幕叠加在嘉宾演讲画面上,产生实时字幕的效果。

在整个系统中,最为核心的算法部分就是一个是语音识别服务部分,它的作用就是将嘉宾的演讲内容实时转换为文本内容。那么现在问题又来了,语音识别是怎么工作的呢?

 

语音识别技术概览

语音识别就是把语音转换为文字的技术。经过几十年的发展,它已经成为目前人工智能领域发展的较为成熟的一个应用方向。那么看似神秘的语音识别技术背后的基本原理到底是怎么回事呢?鉴于篇幅原因,这里只简单的解释一下语音识别的基本原理。


 

目前,主流的语音识别系统多采用统计机器学习方法完成。一个典型的语音识别系统由以下几个模块所组成:

  • 语音采集模块。在此模块中,麦克风录入的语音通过采集之后得到一个数字化的语音信号表示,比如一个16k采样率16bit的数字化语音表示,就是将每秒的语音表示为1,6000个16-bit的整数;
    特征提取模块。该模块的主要任务是把采集的数字语音信号转换为特征向量,供声学模型处理;
  • 声学模型。声学模型用来表征人的语音跟语音识别产生的文本在声音上的相似程度。传统上通常使用隐含马尔科夫模型-混合高斯模型(HMM-GMM),近些年多使用隐含模型科夫模型-深度神经网模型(HMM-DNN)或者其他改进模型表示。
  • 发音词典。发音词典包含语音识别系统所能处理的所有的词汇及其发音,发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射关系。
  • 语言模型。语言模型对系统所针对的语言进行建模,用来评估识别出的文本的“流畅程度”。目前应用最广的一种是基于统计的N元文法(Ngram)及其变体。
  • 解码器。解码器是语音识别系统的核心之一,其任务是对输入的特征矢量,根据声学模型和语言模型,寻找能够以最大概率输出该特征矢量的词串,通常使用基于束搜索(beam search)的维特比算法完成这个搜索过程。
     

上面所述就是一般的语音识别系统的背后基本原理,在很多科普性的介绍中都有所涉及。实际上iDST的语音识别系统也落在上述介绍的基本框架中,但是iDST的语音识别系统为什么有这么高的准确率,有什么独得之秘呢?

IDST语音识别系统

台上一分钟,台下十年功。在阿里云年会上iDST语音识别系统所展示的超高准确率是建立在iDST语音团队同学丰富的业界经验和过去一年辛勤工作所产生的深厚积累上的。这里就简单介绍一下iDST语音识别系统所有的独到特点。

  • 业内领先的声学模型建模技术BLSTM

在语音识别的声学模型方面,iDST团队拥有业内最领先的BLSTM (bi-directional long-short-term-memory) 建模技术,可以通过序列建模的方式,同时使用语音时序序列中的历史信息和“未来”序列信息;保证了声学模型建模的最佳准确性,有效地提升语音识别的准确率,相比于上一代的基于深度神经网(DNN)的声学模型建模方法,相对性能提升可以达到15%-20%。为了实现BLSTM技术,iDST语音组的同学还原创性的解决了BLSTM在训练效率和实际部署中的延迟问题, 成为世界上第一个在工业实时系统中部署BLSTM技术的团队, 关于该技术的介绍请参考云栖文社区的文章。

  • 业内领先的超大规模的语言模型建模技术

正如上一章所说,语言模型在语音识别系统中的作用就是用来评估句子的通顺程度。语言模型的一个核心指标是模型对测试文本的匹配程度(使用困惑度来表示)。在实际应用中,语言模型对领域的相关性越强,对语料的覆盖度越高,识别效果就越好。为了增加语言模型的覆盖度,保证对各个领域的识别性能。iDST借助阿里云的计算优势,使用了全网语料作为训练数据,自主开发了基于Max-Compute的并行语言模型训练工具, 训练产生了规模高达百亿 ngram 条目的超大语言模型(模型文件大小高达数百G字节)。正是有了这样大规模的语言模型,使得iDST的语音识别系统可以很好的识别很多生僻的词,比如“芈月传中的葵姑扮演者”这种新潮词,比如古诗词的识别,比如各种学科术语等等,都不在话下。

  • 业内领先的语音识别解码技术

语音识别解码器是语音识别在工业界部署的核心问题。虽然解码器的基本原理为人所知(维特比搜索),并且一个玩具的解码器原型只需要200行左右的代码就可以工作,但是一个真正工业级的解码器确是目前语音识别中真正最具挑战性的问题。
语音识别解码是一个真正的计算密集型和内存密集型的计算流程。解码器的第一个挑战是,声学模型(深度神经网)打分是一个典型的计算密集型过程(矩阵乘法),为了保证这一部分的效率,iDST的同学做了各种算法优化(量化解码,模型压缩等)和指令优化(针对各种硬件平台),降低了这一部分的计算量。
解码器中面临的一个更大的挑战是如何在语音识别中使用超大规模语言模型,因为巨大的模型可能使得解码过程中内存成为瓶颈,而且解码中对语言模型的反复查找会使计算成为瓶颈。 为了达到在解码过程中使用超大语言模型的目的, iDST的同学对语言模型的存贮表示以及和解码器的核心算法以及跟语言模型的交互方式进行了深度的定制。既节省了解码时的语言模型内存耗费,又充分利用了解码过程中的信息,减少了语言模型部分的计算量,使得在线使用成为可能。实际上,即使在整个世界上范围内,能够使用这种规模的语言模型用于单遍解码的语音识别系统也屈指可数。
对应这部分,iDST的同学会写相应的文章来阐述这一部分的奥秘。

 

  • 模型的快速迭代和训练

另外一个取得这么优秀性能的原因是模型的快速迭代和训练。语音识别中的声学模型和语言模型技术需要基于海量数据进行学习的,那么如何完成在海量数据上的快速迭代就变得尤为重要。在上面提到的大规模语言模型训练工具之外, iDST还基于阿里云的基础架构,构建了GPU集群的多机并行深度学习系统用来完成声学模型的训练(详情请参考GPU训练的文章 。这样系统的快速迭代就变成了可能。

  • 高性能计算支持

正如上面所述,语音识别本身是个计算密集型系统。为了保证演示当天达到最佳的效果,在年会当天,使用的HPC是阿里云带GPU加速的新一代高性能计算平台,单节点计算性能高达16TFLOPS,加上算法优化,保证了语音识别的实时响应速度。

 

 

 

时间: 2025-01-01 14:31:40

阿里云年会人机大战-技术大揭秘的相关文章

阿里云携手达内教育培养大数据技术人才

本文讲的是阿里云携手达内教育培养大数据技术人才,1月12日,达内教育集团与阿里云在北京召开新闻发布会,共同向外界宣布双方达成战略合作关系,共同培养云计算.大数据方向的技术人才. 按照协议,到2017年4月,将有5万人次的达内学员享受阿里云高端的云计算培训和ACF认证. 据了解,达内将与阿里云共同研发面向阿里云认证考试的培训课程,面向终端用户推广阿里云的培训及认证产品. 阿里云为达内的每位学员提供两次免费参加ACF(Ali cloud foundation)认证考试,提供在线考试平台的机会.这意味

打开天窗说“亮话”,手淘这些年的技术大揭秘

中国云计算产业最具影响力的盛会之一--2016杭州云栖大会(https://yunqi.aliyun.com/)将在云栖小镇召开.连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势.体验前沿技术和产品的最佳平台,来自海内外的上万名开发者.创业者聚集于此,分享着他们对云计算的思考与实践经验.7年来,从产品发布到行业解决方案展示,从关注技术到技术与服务并重,从单一的客户到生态全景的展现,大会的核心内容一直在"进化",而2016年杭州云栖大会,则以"飞天・进化&quo

阿里云快照2.0技术优势有哪些

  阿里云快照2.0技术优势对比 阿里云ECS快照2.0数据服务相比于传统存储产品数据快照功能,具备诸多优势,详情如下. 对比项 ECS 快照 2.0 数据服务 传统存储快照功能 容量限制 无限容量,满足超大业务规模数据保护需求 有限容量,受限于初次购买的存储设备容量,只能满足少量核心业务的数据保护需求 扩展性 弹性伸缩,用户可根据业务规模任意扩展,一次点击,秒级生效 扩展性较差,受限于生产存储性能.可用容量.供应商支持能力等,一次调整周期约为 1-2 周时间 成本投入 根据用户业务实际数据变化

【高德地图API】汇润做爱地图技术大揭秘

原文:[高德地图API]汇润做爱地图技术大揭秘 昨日收到了高德地图微信公众号的消息推送,说有[一大波免费情趣用品正在袭来],点进去看了一眼,说一个电商公司(估计是卖情趣用品的)用高德云图制作了一张可以标记做爱地点与详情的地图.这不就是中国版的I just made love麽? 滑到屏幕底下,看了看阅读量,哇塞,居然有4万3!!!说明实在是有很多人关注做爱地图啊.本着研究地图的心情(绝对不是为了什么价值300的智能情趣用品!),我也就点击了[阅读原文]-- 好吧,为了证明我真的不是为了奖品,我会

【阿里云产品公测】大数据下精确快速搜索OpenSearch

相信做过一两个项目的人都会遇到上级要求做一个类似百度或者谷歌的站内搜索功能.传统的sql查询只能使用like 或者FIND_IN_SET来实现.后者性能稍微好点但是必须要逗号分隔才可以实现匹配.甚至多条件的话还可能用到OR这是极影响系统性能的.        最近公司项目需要.主要是系统查询缓慢.并且查询精度不敢恭维.一开始想到的是Lucene 毕竟是一个开放源代码的全文检索引擎工具包 并且官方还在持续更新中.当时闲暇时间大概搞了将近一个星期的时间.索引的增删查改以及中文分词IKAnalyzer

阿里云频频牵手高校 专注大数据人才培养

阿里云频频牵手高校 专注大数据人才培养 阿里巴巴作为互联网巨头,近几年来,频频牵手各知名高校,在教育领域开展深度合作,备受业界的关注.今年5月,阿里巴巴旗下阿里云与成都信息工程大学联合共建了"成都信息工程大学--阿里巴巴大数据学院",这是全国第三所由阿里巴巴与高校联合冠名的大数据人才培养学府,也是全国第一所同时开展本科生与硕士研究生培养的大数据学院.这标志着阿里巴巴互联网教育领域步入了新的发展阶段. 据了解,自2015年以来,阿里云持续投身云计算大数据的人才培养,目前,阿里云已经与浙江

阿里云上的容器技术实践详解

为什么选择阿里云 本文讲的是阿里云上的容器技术实践详解,现在的公有云如雨后春笋,国外如AWS.Azure.Bluemix,国内如BAT.DaoCloud.goodrain,都可以给大家提供丰富的云基础设施和上层服务,那么,为什么选择阿里云呢?主要有三点想法: 我们使用阿里云的服务已经有5年了,从企业级PaaS平台合作开始,再到帮助我们的一些客户逐步迁云,对阿里云的能力还是比较熟悉的. 因为要做的是容器,国外AWS,Azure虽然有,但AWS在中国一直没"正规"数据中心(唯一的一个前几天

基于阿里云数加平台的大数据Serverless实践

本文PPT来自班输于10月16日在2016年杭州云栖大会上发表的<基于阿里云数加平台的大数据Serverless实践>. 数加是阿里云大数据的品牌名,其旗下包含一系列的大数据产品及服务,可以为用户提供一站式的数据开发.分析.应用平台.数加提供的服务包括智能语音/图象/视频分析服务.企业级数据仓库服务,地理信息可视化服务,风险预警与管控服务等等.其在基础平台的大数据产品包括数据开发.机器学习.大数据计算.分析型数据库.流计算,在数据应用层的产品包括数据可视化DataV.推荐引擎.人脸识别等等.

阿里云与国家天文台成立天文大数据联合研究中心

免费开通大数据服务:https://www.aliyun.com/product/odps 2017 年 1 月 22 日,中国科学院国家天文台与阿里云正式成立"天文大数据联合研究中心". 中国科学院国家天文台与阿里云在京举办了合作协议签字暨研究中心揭牌活动. 阿里云将作为天文台云计算大数据领域唯一战略合作伙伴,共同推进天文学科研和科普教育工作. 天文台台长严俊: 国家天文台与阿里云的跨界"融合"是科学大数据与丰富的云资源和深厚信息技术的"融合"