INTERSPEECH 2017系列 | 语音识别技术之声学模型

1.语音识别技术简介

1.1 什么是语音识别

       语音识别(Automatic Speech Recognition,ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是完全机器翻译,自然语言理解等的前提条件。语音识别的研究起源于上世纪的50年代,此后经过无数学者坚持不懈的努力,从最初的基于孤立词的小词汇量语音识别系统到目前的基于大词汇量的连续语音识别识别系统,语音识别技术取得了显著的进展。特别是近年来随着大数据时代的到来,以及深度神经网络在语音识别中的应用,语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。

1.2 语音识别系统框架

图1. 语音识别的数学公式表示

图2. 语音识别系统结构框图

          

        语音识别的目的是对给定的波形序列,可以得到相应的单词或者字符序列。因此语音识别可以被看作是一个信道解码或者模式分类问题。统计建模是目前主流的语音识别方法。基于统计建模框架,对于给定语音波形序列O,我们可以采用贝叶斯决策的最大后验概率(Maximum A Posteriori,MAP)估计得到最优的输出序列W*,公式表达如图1所示。其中条件概率P(O|W) 表示模型生成观察序列的概率,对应语音识别系统的声学模型(Acoustic Model,AM)。似然值P(W)则表示序列W出现的一个先验概率,称之为语言模型(Language Model,LM)。如图2是一个标注的语音识别系统的结构框图,其主要由前端处理,声学模型,语言模型,解码器四个模块组成。解码的过程主要是利用所训练的声学模型和语言模型,搜索得到最佳的输出序列。

       

1.3 声学模型

       

       声学模型的任务是计算P(O|W),即给模型产生语音波形的概率。声学模型是语音识别系统的重要组成部分,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。传统的语音识别系统普遍采用的是基于GMM-HMM的声学模型,其中GMM用于对语音声学特征的分布进行建模,HMM则用于对语音信号的时序性进行建模。2006年深度学习兴起以后,深度神经网络(Deep Neural Networks,DNN)被应用于语音声学模型。2009年,Hinton及其学生奖前馈全连接深度神经网络应用于语音识别声学建模[1],在TIMIT数据库上基于DNN-HMM的声学模型相比于传统的GMM-HMM声学模型可以获得显著的性能提升。DNN相比于GMM的优势在于:1)DNN对语音声学特征的后验概率进行建模不需要对特征的分布进行去分布假设;2)GMM要求对输入的特征进行去相关处理,而DNN可以采用各种形式的输入特征;3)GMM只能采用单帧语音作为输入,而DNN则可以通过拼接相邻帧的方式利用上下文的有效信息。2011年,DengLi等提出基于CD-DNN-HMM[2]的声学模型,在大词汇量连续语音识别任务上取得成功,相比于传统的GMM-HMM系统可以获得超过20%的相对性能提升。基于DNN-HMM的语音声学模型开始取代GMM-HMM成为主流的声学模型。此后大量的研究人员投入到基于深度神经网络的语音声学建模研究中,语音识别取得了突破性的进展。

2.INTERSPEECH 2017 论文介绍

        基于深度神经网络的语音识别声学建模在过去几年取得了很大的进展,不同的网络结构以及优化策略极大提升了声学模型的性能。以下则选择本次interspeech相关的两个声学模型的最新研究点进行介绍:1)Very deep Networks;2)End-to-end ASR systems。

2.1 Very Deep Networks for Acoustic Modeling

        

        长短时记忆单元(Long Short Memory Networks,LSTM)是目前在声学模型中广泛应用的一种循环神经网络(Recurrent Neural Networks,RNN)结构。相比于普通的RNN,LSTM通过精心设计的门结构来控制信息的存储,输入和输出,同时可以一定程度上避免普通RNN的梯度消失问题,从而LSTM可以有效的对时序信号的长时相关性进行建模。作为声学模型的LSTM通常包含3-5个LSTM层,但是直接堆积更多的LSTM层构建更深的网络往往不会带来性能的提升,反而会由于degradation problem[3]使得模型的性能更差。

        针对如何优化非常深的网络,最近有两种结构被提出来,称之为Highway Networks[4] 和ResNet[3]。这两种结构都通过在非线性变换的输出额外添加一个线性成分的方式,使得网络训练过程梯度可以更好的传递,避免由于网络太深导致的梯度消失问题。不同之处在于Highway Networks通过“门”来控制输出中的线性和非线性成分的比重,而ResNet则是更加直接的直接加上线性成分。实验表明两者都可以优化非常深层的网络的训练。Residual Networks在图像分类任务上获得了很大的成功。

        关于Highway Networks 和ResNet一开始都是在图像分类任务上进行验证的,而且采用的卷积神经网络(Convolutional Neural Networks,CNN)。但是由于语音信号时序建模非常重要,所以最流行的模型还是LSTM。但是通常声学模型使用的LSTM一般只包含3-5个LSTM层。所以进一步的一些研究探索借鉴Highway Networks 和ResNet,优化LSTM的结构,分别提出了Redisual-LSTM[5],Highway-LSTM[6]和Recurrent Highway Networks (RHN) [7]用于语音声学建模。下面我们结合结合论文介绍相应的网络结构以及实验结果。

Paper1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition


       Residual-LSTM通过在普通的LSTM的输出层之间添加一个skip connection,如上图红色框框中的公式表达。这样可以将底层的输出直接添加到高层,如果低层的输出层和高层的输出层节点数目相同,可以进一步采用和ResNet相同单位映射。实验室在100小时AMI会议数据库进行的验证,实验结果如下:

Paper2. Highway-LSTM and Recurrent Highway Networks for Speech Recognition

 

      Highway-LSTM通过在相邻的LSTM层的cell之间建立一个线性连接,通过一个线性变换将底层cell中的表达添加到高层cell中。同时线性变换是受一个gate控制,gate的值是单前层的输入,单前层cell中表达,以及后一层cell中前一时刻的输出的一个函数。进一步的该论文中提出另一种深层的网络结构用于声学建模,称之为为ecurrent Highway Networks (RHN)。RHN的隐层采用如上图的Recurrent Highway Layer构成。

该论文是在一个12500小时的google voice search 任务上进行验证的。实验首先对比了普通的LSTM,Residual-LSTM,Highway-LSTM在该任务上的性能。从上图Exp1的实验结果可以看出在可比的配置下,Highway-LSTM(HW-LSTM)相比于Redidual-LSTM可以获得更好的性能。Exp2则对比了网络大小(20M,30M)情况下,HW-LSTM性能和隐层数目的关系,从结果上看通过Highway可以成功训练10层的网络,而且相比于5层网络可以获得一定的性能提升,但是进一步增加网络的隐层数目,也会出现性能的下降。

        Exp3则对比了不同配置Highway-Recurrent Highway Networks(HW-RHW)再改任务上的性能。功过使用RHL层可以成功训练非常深的网络,最终深层的HW-LSTM和HW-RHW可以获得差不多的性能,并且相比于基线LSTM都有一定的提升。

        

        对比以上两篇论文的实验结果,我们发现在两个不同的任务集上,关于Highway-LSTM和Residual-LSTM的性能对比结论刚好是相反。这和实验的任务集相关,HW-LSTM通过gate来控制网络中非线性变换和线性变换的成分。通常对于更加困难的任务更多非线性变换的模型往往具有更强的建模能力。所以google的论文在1.25万小时的任务上HW-LSTM相比于Residual-LSTM具有优势。这点我们可以进一步通过观察HW-LSTM的各个层的transform gate的值来分析。从上图我们发现transform gate的值随着训练的进行值越来越大,说明了网络更趋向于选择非线性变换成分。

2.2 End-to-End ASR System

       目前大多数语音识别系统到采用NN-HMM的混合系统。需要训练一个声学模型,语言模型,然后在结合词典进行解码。最新的一个研究热点是研究端到端的语音识别系统,希望可以去除HMM,直接从声学特征输入就可以得到识别的词序列。其中具有代表性的是CTC模型(Connectionist Temporal Classification)和基于Attention的Encoder-decoder模型。

       

       Encoder-Decoder最早是应用于机器翻译领域[8]: 通过一个encoder对序列信息进行编码得到一个向量表达,然后作为decoder的输入。Decoder则是一个预测模型,利用历史输出和encoder得到的信息去预测输出。但是Encoder-Decoder框架在翻译很长的句子时候由于遗忘问题效果并不理想。一个改进的模型是引入attention机制。Attention机理是利用网络中的一些表达从Encoder中寻找和单前预测输出有关的一些输入,关系越密切attention向量的值越大。这样Decoder就可以获得一个额外的对当前预测输出有帮助的向量,从而可以避免长序列的遗忘问题。基于端到端的语音识别也可以看作一个sequence-to-sequence的翻译问题,输入的是声学特征,得到的是文本序列。所以基于Attention的Encoder-decoder框架很快被应用于语音识别。但是该框架存在一个问题,encoder需要接受整个序列以后,decoder才能产生输出,这对于识别的语音识别是不可接受的。基于这个问题,在interspeech2017上有研究提出了一种gaussian prediction based attention 来解决这个问题。具体的论文如下:

Paper3. Gaussian Prediction based Attention for Online End-to-End Speech Recognition

这篇论文的贡献主要有两点:

1)提出一种Gaussian prediction based attention解决通用的attention模型的延迟问题;

2)提出采用DCNN作为Encoder,相比于GRU可以获得更好的性能

Gaussian prediction based attention的公式表达如上图,其核心思想是假设attention的系数服从高斯分布,这在语音识别任务里是合理的。因为对于语音识别任务,和输出最相关的中心帧周边帧对预测输出都有贡献,但是这种贡献随着距离越远越小。从而Gaussian prediction based attention中不像传统的attention去计算每个时刻的attention系数,而是去预测一个Gaussian分布的均值和方差。进一步考虑到语音信号时序上单调性:下一时刻预测的atttention的中心帧应该比前一时刻更加靠后。基于此该论文采用公式9和10的相对预测方式。去预测一个正的偏移量而不是直接去预测高斯的均值。当前时刻高斯均值等于前一时刻的预测的均值加上一个正的偏移量得到。同时为保证实时性,采用如下的公式进行截断处理:

实验验证是在3小时TIMIT数据库,结果如下:

3 总结

     希望大家通过阅读这篇文章可以对语音识别系统的声学模型和最新的研究热点有一定的了解。

参考文献:

[1]  Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.

[2]  Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on audio, speech, and language processing, 2012, 20(1): 30-42.

[3]  He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[4] Srivastava R K, Greff K, Schmidhuber J. Highway networks[J]. arXiv preprint arXiv:1505.00387, 2015.

[5] Kim J, El-Khamy M, Lee J. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition[J]. arXiv preprint arXiv:1701.03360, 2017.

[6] Zhang Y, Chen G, Yu D, et al. Highway long short-term memory rnns for distant speech recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 5755-5759.

[7] Pundak G, Sainath T N. Highway-LSTM and Recurrent Highway Networks for Speech Recognition[J]. Proc. Interspeech 2017, 2017: 1303-1307.

[8] Cho K, Van Merriënboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.

[9] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[10] Hou J, Zhang S, Dai L. Gaussian Prediction based Attention for Online End-to-End Speech Recognition[J]. Proc. Interspeech 2017, 2017: 3692-3696.

      

时间: 2024-09-20 00:40:04

INTERSPEECH 2017系列 | 语音识别技术之声学模型的相关文章

INTERSPEECH 2017系列 | 语音识别之语言模型技术

随着iPHONE 4S中siri的出现,越来越多的民用语音识别出现在大家眼前.现在市面上各种语音输入法.语音机器人层出不穷.下图是去年阿里云栖大会,基于iDST语音技术的ET机器人.现在市面上漫山遍野的智能音箱大战,其中也包含语音识别技术. 语音识别技术,通俗讲叫语音转文字,speech-to-text,是将观测得到的语音输入信号,转化成与之对应的文本序列的过程.传统语音识别系统如下图所示,包括特征提取.声学模型.语言模型和解码器四部分,通过特征提取将原始音频信号分帧加窗,转化成有利于机器进行识

INTERSPEECH 2017系列 | 语音合成技术

1.2 语音合成的应用场景和研究范围 语音合成技术是人与计算机语音交互中必不可少的模块.从地图导航(例如高德地图高晓松语音导航),语音助手(Apple Siri, Google Assistant,微软 Cortana, Nuance Nina), 小说.新闻朗读(书旗.百度小说), 智能音箱(Amazon Alexa, 天猫精灵, Google Home,Apple Pod Home 等 ),语音实时翻译,到各种大大小小的客服,呼叫中心,甚至机场广播,地铁公交车报站都少不了语音合成技术的身影.

INTERSPEECH 2017系列 | 远场语音识别技术

1. 远场语音识别技术简介 1.1. 什么是远场语音识别 远场语音识别是语音交互领域的重要技术,目的在于在远距离条件下(通常1m-10m),让机器能够识别人的语音.该技术在智能家居(智能音箱.智能电视等).会议转录.车载导航等场景都有重要的应用.远场语音识别通常采用麦克风阵列的方式收集语音,由于真实环境中存在大量的背景噪声.多径反射和混响,甚至是人声干扰,导致拾取信号的质量下降,通常远场语音识别准确率与近场语音识别相比会有大幅下降. 1.2. 远场语音识别系统 远场语音识别系统通常包含前端信号处

预告:语音交互前沿技术分享——INTERSPEECH 2017系列

今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,共历时5天.据了解,本次大会共有839篇论文被大会接受,分成109个session.众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术.系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场. 首期分享将在10月25日(本周三)晚上7点半正式开始,欢迎关注语音识别技术的同学报名参与(报名请戳这里)!. 直播主题:语音识别技术之自适应技术 内容简介:语音识别技术是将语音转换成文字的技术,而说

语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用

"正在为您转接客服小二.为了提高我们的服务质量,您的通话可能会被录音."我们是这么说的,也是这么做的.每天,集团和蚂蚁的客服小二总共会接听几十万通电话,沉淀的语音数据时长超过数万小时.来自天南海北的客户将需要咨询的问题.需要吐槽的痛点.需要投诉的纠纷通过客服电话源源不断的反馈回公司.这些宝贵的客户心声在阿里会被认真的记录下来,并成为改善我们产品和服务的动力. 那么问题来了:如此大规模的语音数据沉淀下来后,如何才能被挖掘利用?阿里如此大规模的自营和外包客服小二团队,如何才能监测并不断提高

人机大战机器胜!这次是智能语音识别技术!

昨天,在阿里云的一场年会上,真枪实弹的上演了一场人机大战.一张大屏分两边,一边实时滚动的是出自阿里著名的快男姜毅的文字速记,一边出现的是阿里云iDST的科学家们在短短一年时间打造出来的语音识别系统支持下的语音转文本记录. 人机大战一触即发,随着阿里云总裁胡晓明的演讲展开,屏幕两端实时出现了各自的文本记录,从现场效果来看,难分伯仲.如果不是提前告知,观者很难感知到擂台的一端是机器人,因为可以实时的看到机器人除了记录之外,还能根据演讲人语境的变化,返回来对前面的记录进行调整. 结果评估取孙权前八分钟

《MIT科技评论》2017十大突破技术榜单,AI领域3家中国公司入选

雷锋网消息,2月21日,美国权威杂志<MIT科技评论>(MIT Technology Review) 公布了2017年度全球十大突破技术,有多家中国公司入选榜单(key players). "十大突破技术"(10 Breakthrough Technologies)是<MIT科技评论>的年度技术评选榜单.自2002年起,<麻省理工科技评论>每年遴选并公布10项即将对人们工作生活产生深远影响的重大技术,这十大技术有一个基本的标准,那就是"该项

中文语音识别技术在c#中的应用(二)

中文 接上篇<中文语音识别技术在c#中的应用(一)>---但是,这个方法本身并不知道你给的字符串是什么语言,所以需要我们它这个字符串用什么语言读出.SpVoiceClass 类的Voice 属性就是用来设置语种的,我们可以通过SpVoiceClass 的GetVoices方法得到所有的语种列表,然后在根据参数选择相应的语种,比如设置语种为汉语如下所示: private void SetChinaVoice() { voice.Voice = voice.GetVoices(string.Emp

机器换人!浙江高院庭审引入语音识别技术!

人工智能被认为是全球科技大发展的下一幕.从围棋人机大战,到预测<我是歌手>冠军,再到挑战高考作文.人工智能正在加速闯入大众生活的方方面面,这也包括司法领域.(深入了解语音识别技术,可详阅:https://yq.aliyun.com/topic/24) "现在开庭."6月7日上午,随着一声清脆的法槌声,被告人宣某危险驾驶案在浙江省杭州市西湖区人民法院开庭审理.法官话音未落,显示屏上就同步出现汉字:"审判长:现在开庭"--十分钟不到,庭审结束,显示屏上记录着