大牛讲堂|语音专题第三讲,声学模型

雷锋网(公众号:雷锋网)按:本文作者牛建伟,地平线语音算法工程师。硕士毕业于西北工业大学,曾任百度语音技术部资深工程师。主要工作方向是语音识别中声学模型的算法开发和优化,负责深度学习技术在声学模型上的应用和产品优化。参与了百度最早的深度学习系统研发,负责优化语音搜索、语音输入法等产品;后负责百度嵌入式语音开发,其负责的离线语音识别性能超越竞品。现任地平线机器人语音识别算法工程师,深度参与地平线“安徒生”智能家居平台的研发。

声学模型

语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因,首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使语音识别的终端应用变得可能。

声学模型是人工智能领域的几大基本模型之一,基于深度学习的声学模型发展对于人工智能的拓展和交互方式的延伸都有着十分重要的意义。本期的大牛讲堂,我们邀请到地平线的语音算法工程师牛建伟为大家重磅科普何为声学模型。

自动语音识别

自动语音识别(Automatic Speech Recognition, ASR)作为一个研究领域已经发展了五十多年。这项技术的目标是将语音识别作为可以使得人与人、人与机器更顺畅交流的桥梁。然而,语音识别技术在过去并没有真正成为一种重要的人机交流形式,一部分原因是源于当时技术的落后,语音技术在大多数实际用户使用场景下还不大可用;另一部分原因是很多情况下使用键盘、鼠标这样的形式交流比语音更有效、更准确,约束更小。

语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因:

首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使得语音识别的终端应用变得可能;

其次,借助近乎无处不在的互联网和不断发展的云计算,我们可以得到海量的语音数据资源,真实场景的数据使得语音识别系统变得更加鲁棒;

最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,在这些设备上,语音交互变成了一个无法避免的交互方式。

语音识别基本组成

语音识别系统主要有四部分组成:信号处理和特征提取、声学模型、语言模型(Language Model, LM)和解码器(Decoder)。

信号处理和特征提取部分以音频信号为输入,通过消除噪音、信道失真等对语音进行增强,将语音信号从时域转化到频域,并为后面的声学模型提取合适的特征。声学模型将声学和发音学的知识进行整合,以特征提取模块提取的特征为输入,生成声学模型得分。

语言模型估计通过重训练语料学习词之间的相互概率,来估计假设词序列的可能性,也即语言模型得分。如果了解领域或者任务相关的先验知识,语言模型得分通常可以估计得更准确。解码器对给定的特征向量序列和若干假设词序列计算声学模型得分和语言模型得分,将总体输出分数最高的词序列作为识别结果。

关于声学模型,主要有两个问题,分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列问题在学术上通常有动态时间规划(Dynamic Time Warping, DTW)和隐马尔科夫模型(Hidden Markov Model, HMM)方法来解决。

而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性来处理以上的情况。

在过去,主流的语音识别系统通常使用梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)或者线性感知预测(Perceptual Linear Prediction, PLP)作为特征,使用混合高斯模型-隐马尔科夫模型(GMM-HMM)作为声学模型。在近些年,区分性模型,比如深度神经网络(Deep Neural Network, DNN)在对声学特征建模上表现出更好的效果。基于深度神经网络的声学模型,比如上下文相关的深度神经网络-隐马尔科夫模型(CD-DNN-HMM)在语音识别领域已经大幅度超越了过去的GMM-HMM模型。

我们首先介绍传统的GMM-HMM声学模型,然后介绍基于深度神经网络的声学模型。

传统声学模型(GMM-HMM)

HMM模型对时序信息进行建模,在给定HMM的一个状态后,GMM对属于该状态的语音特征向量的概率分布进行建模。

1.混合高斯模型

如果一个连续随机变量服从混合高斯分布,则它的概率密度函数为:

混合高斯模型分布最明显的性质是它的多模态,这使得混合高斯模型可以描述很多显示出多模态性质的屋里数据,比如语音数据,而单高斯分布则不合适。数据中的多模态性质可能来自多种潜在因素,每一个因素决定分布中特定的混合成分。如果因素被识别出来,那么混合分布就可以被分解成有多个因素独立分布的集合。

那么将上面公式推广到多变量的多元混合高斯分布,就是语音识别上使用的混合高斯模型,其联合概率密度函数的形式如下:

在得到混合高斯模型的形式后,需要估计混合高斯模型的一系列参数变量:,我们主要采用最大期望值算法(Expectation Maximization, EM)进行参数估计,公式如下:

其中,j是当前迭代轮数,为t时刻的特征向量。GMM参数通过EM算法进行估计,可以使其在训练数据上生成语音观察特征的概率最大化。此外,GMM模型只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布。

2.隐马尔可夫模型

为了描述语音数据,在马尔可夫链的基础上进行了扩展,用一个观测的概率分布与马尔可夫链上的每个状态进行对应,这样引入双重随机性,使得马尔可夫链不能被直接观察,故称为隐马尔可夫模型。隐马尔可夫模型能够描述语音信号中不平稳但有规律可学习的空间变量。具体的来说,隐马尔可夫模型具有顺序排列的马尔可夫状态,使得模型能够分段的处理短时平稳的语音特征,并以此来逼近全局非平稳的语音特征序列。

隐马尔可夫模型主要有三部分组成。对于状态序列

(1)转移概率矩阵,描述马尔可夫链状态间的跳转概率:

(2)马尔可夫链的初始概率,其中

(3)每个状态的观察概率分布,按照上一节的介绍,我们会采用GMM模型来描述状态的观察概率分布。在这种情况下,公式可以表述为:

隐马尔可夫模型的参数通过Baum-Welch算法(在HMM上EM算法的推广)进行估计。

CD-DNN-HMM

虽然GMM-HMM在以往取得了很多成功,但是随着深度学习的发展,DNN模型展现出了明显超越GMM模型的性能,替代了GMM进行HMM状态建模。不同于GMM模型,DNN模型为了获得更好的性能提升,引入了上下文信息(也即前后特征帧信息),所以被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。在很多测试集上CD-DNN-HMM模型都大幅度超越了GMM-HMM模型。

首先简单介绍一下DNN模型,DNN模型是有一个有很多隐层的多层感知机,下图就是具有5层的DNN,模型结构上包括输入层、隐层和输出层。对于第层,有公式:

其中分别表示,L层的输出向量,权重矩阵,输入向量以及偏差向量(bias);一般称为激活函数,常用的激活函数有sigmoid函数或者整流线性单元(Rectifier Linear Unit)。在语音识别上应用的DNN模型一般采用softmax将模型输出向量进行归一化,假设模型有L层,在特征向量为 ,输出分类数为 的情况下,则第 类的输出概率为:

相比于GMM模型,DNN模型具有一些明显的优势:

首先,DNN是一种判别模型,自身便带有区分性,可以更好区分标注类别;

其次,DNN在大数据上有非常优异的表现,伴随着数据量的不断增加,GMM模型在2000小时左右便会出现性能的饱和,而DNN模型在数据量增加到1万小时以上时还能有性能的提升;

另外,DNN模型有更强的对环境噪声的鲁棒性,通过加噪训练等方式,DNN模型在复杂环境下的识别性能甚至可以超过使用语音增强算法处理的GMM模型。

除此之外,DNN还有一些有趣的性质,比如,在一定程度上,随着DNN网络深度的增加,模型的性能会持续提升,说明DNN伴随模型深度的增加,可以提取更有表达性、更利于分类的特征;人们利用这一性质,提取DNN模型的Bottle-neck特征,然后在训练GMM-HMM模型,可以取得和DNN模型相当的语音识别效果。

DNN应用到语音识别领域后取得了非常明显的效果,DNN技术的成功,鼓舞着业内人员不断将新的深度学习工具应用到语音识别上,从CNN到RNN再到RNN与CTC的结合等等,伴随着这个过程,语音识别的性能也在持续提升,未来我们可以期望将可以和机器进行无障碍的对话。

雷锋网注:本文由大牛讲堂授权雷锋网发布,如需转载请联系原作者,并注明作者和出处,不得删减内容。有兴趣可以关注公号地平线机器人技术,了解最新消息。

本文作者:大牛讲堂

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-22 15:58:03

大牛讲堂|语音专题第三讲,声学模型的相关文章

大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

雷锋网按:徐荣强(Kevin),地平线硬件音频工程师.2011年11月毕业于英国爱丁堡大学通信与信号处理专业,曾任诺基亚,联想,微软高级音频工程师.现在Horizon-Robotics负责语音相关硬件系统设计,涉及远场高灵敏度麦克风阵列设计,高精度音频硬件编解码器评估验证,远场语音前处理算法的评估验证,涉及声源定位,波束形成,盲信号分离,回声抑制及平稳降噪等相关技术算法. 麦克风阵列的语音信号处理技术 熟悉人工智能的朋友一定明白,语音交互对于人机对话交互的重要意义,而一个完整的语音交互涉及到人的

大牛讲堂 | 语音专题第二讲,语言模型技术

雷锋网(公众号:雷锋网)注:曹立新,地平线机器人语音算法工程师.2011年7月毕业于哈尔滨工业大学计算机科学与技术专业,曾任百度语音资深研发工程师.负责百度超大语言模型训练,语音交互技术研发以及语音搜索.语音输入法.语音助手等产品的语音识别优化.现在地平线负责语音识别.自然语言处理等相关技术算法研究. 语言模型技术 语言模型技术广泛应用于语音识别.OCR.机器翻译.输入法等产品上.语言模型建模过程中,包括词典.语料.模型选择,对产品的性能有至关重要的影响.语言模型的建模需要利用复杂的模型公式进行

语音专题第四讲,语音识别之解码器技术简介|大牛讲堂

雷锋网按:本文作者潘复平,地平线机器人语音识别算法工程师.博士毕业于中国科学院声学研究所,曾任声学所副研究员.百度语音技术部资深工程师等职位.在中科院工作期间曾领导完成多个"863".教育部和中科院的科研项目.在百度工作期间把解码器的搜索空间大小压缩到了原来的十分之一,解码速度提高了约30%,并在置信度.VAD等方面大幅提高了系统性能.现任地平线机器人语音识别算法工程师,深度参与地平线"安徒生"智能家居平台的研发. 语音识别技术,也被称为自动语音识别(Automat

余凯与雷鸣漫谈嵌入式人工智能 | 大牛讲堂

2017年2月的最后一天,北京大学"人工智能前沿与产业趋势"研究生课第二讲如约和同学见面.课程依旧由北大人工智能创新中心主任.百度七剑客之一.酷我音乐创始人雷鸣老师坐镇,而邀请的嘉宾则是地平线机器人创始人&CEO.中组部"千人计划"国家特聘专家.机器学习专家.互联网人工智能领域全球领导者之一余凯博士. 本讲围绕的主题是嵌入式人工智能,涉及了嵌入式人工智能的本质特征.软硬件结合联合优化.应用场景及未来的发展机会等等,亮点颇多. 余凯博士首先以"人工智

大牛讲堂 | 山世光博士:自动驾驶系统中的目标检测技术

雷锋网按:作者山世光博士,中科院计算所研究员.博导,主要从事计算机视觉.模式识别.机器学习等相关研究工作.迄今已发表CCF A类论文50余篇,全部论文被Google Scholar引用9000余次.现任IEEE TIP,TIPNeurocomputing和PRL等国际学术刊物的编委(AE).研究成果曾获2005年度国家科技进步二等奖和2015年度国家自然科学奖二等奖. 本文中,山世光博士主要给我们分享梳理了物体检测技术的近期进展.  1.  Viola-Jones人脸检测器   物体检测在整个计

大牛讲堂|SLAM最终话:视觉里程计

雷锋网按:本文作者高翔博士.Simultaneous Localization and Mapping,即时定位与地图构建技术.无论在室内.野外.空中还是水下,SLAM是机器人进入未知环境遇到的第一个问题.本期将给大家介绍SLAM的视觉里程计. 本讲主要关注视觉里程计.为了讲清楚它的来龙去脉,我们会进行一些公式的推导.视觉里程计算法需要大量的几何知识,我们将在必要的时候,以Tips的形式介绍一些背景知识. 一.里程计 在里程计问题中,我们希望测量一个运动物体的轨迹.这可以通过许多不同的手段来实现

大牛讲堂 | 邬书哲:物体检测算法的革新与传承

雷锋网(公众号:雷锋网)按:本文作者邬书哲博士,师从中科院计算所山世光博士. 邬书哲博士对山世光博士讲到的内容在细节上做了补充.其补充内容主要包含三个部分:首先是深度学习在物体检测领域点燃的星星之火,即R-CNN系列的工作,其次是针对检测器的速度问题所提出的两个代表性方法:YOLO和SSD,最后是传承了经典检测方法的Cascade CNN.   R-CNN系列 R-CNN的出现带来检测精度的一次巨大提升,在Pascal VOC 2010上,全面超越了之前的方法,mAP提高了20%:在ImageN

大牛讲堂 | 深度学习Sequence Learning技术分享

雷锋网按:本文作者都大龙,2011年7月毕业于中科院计算技术研究所:曾任百度深度学习研究院(IDL)资深研发工程师,并连续两次获得百度最高奖-百万美金大奖:现在Horizon Robotics负责自主服务机器人.智能家居以及玩具方向的算法研究与开发,涉及深度学习.计算机视觉.人机交互.SLAM.机器人规划控制等多个领域. 深度学习独领风骚 人工智能领域深度学习独领风骚自2006 年Geoffery Hinton等在<科学>( Science) 杂志发表那篇著名的论文开始, 深度学习的热潮从学术

神经网络算法Batch Normalization的分析与展望 | 大牛讲堂

雷锋网(公众号:雷锋网)按:作者罗恒,地平线机器人技术资深算法研究员.2011年博士毕业于上海交通大学,后随Yoshua Bengio从事博士后研究,2014年加入百度深度学习实验室,参与深度学习在搜索中应用.PaddlePaddle研发等工作.2016年加入地平线机器人公司,负责深度学习模型压缩与加速.   训练更深的神经网络近年来一直是深度学习领域的重要趋势之一,2015年初Google提出的Batch Normalization 算法使得深层神经网络训练更加稳定,加快了收敛的速度,甚至同时