大牛讲堂 | 语音专题第二讲,语言模型技术

雷锋网(公众号:雷锋网)注:曹立新,地平线机器人语音算法工程师。2011年7月毕业于哈尔滨工业大学计算机科学与技术专业,曾任百度语音资深研发工程师。负责百度超大语言模型训练,语音交互技术研发以及语音搜索、语音输入法、语音助手等产品的语音识别优化。现在地平线负责语音识别、自然语言处理等相关技术算法研究。

语言模型技术

语言模型技术广泛应用于语音识别、OCR、机器翻译、输入法等产品上。语言模型建模过程中,包括词典、语料、模型选择,对产品的性能有至关重要的影响。语言模型的建模需要利用复杂的模型公式进行模拟计算,是人工智能领域的关键技术之一。

语言模型的背景

语言模型是针对某种语言建立的概率模型,目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。给定下边两句话:

"定义机器人时代的大脑引擎,让生活更便捷、更有趣、更安全"。

"代时人机器定义引擎的大脑,生活让更便捷,有趣更,安更全"。

语言模型会告诉你,第一句话的概率更高,更像一句"人话"。

语言模型技术广泛应用于语音识别、OCR、机器翻译、输入法等产品上。语言模型建模过程中,包括词典、语料、模型选择,对产品的性能有至关重要的影响。Ngram模型是最常用的建模技术,采用了马尔科夫假设,目前广泛地应用于工业界。

语言模型的技术难点

语言模型的性能,很大程度上取决于语料的质量和体量。和特定任务匹配的大语料,永远是最重要的。但是实际应用中,这样的语料往往可遇不可求。

传统的Ngram建模技术,对长距离的依赖处理的欠佳。如工业界常用的四元模型,即当前词的概率,只依赖三个历史词。因此,更远距离的历史词在建模中,没有对当前词概率产生影响。

此外,Ngram模型建模的参数空间过于庞大。同样以四元模型为例,词典大小为V,参数空间就是V4。实际应用中V大小为几万到几百万,可想而知,参数空间有多大。在这样的参数规模下,多大的数据显得都有些稀疏。

近年来提出的神经网络语言模型技术,一定程度上解决了参数空间大,长距离依赖的问题。而且对于相似的词,概率估计上自带一定程度的平滑,从另一个角度解决了数据稀疏的问题。但是神经网络语言模型的缺点是训练时间长,实际应用中查询速度较慢,需要结合硬件做加速。

Ngram语言模型

如上所说,Ngram语言模型是应用最常见的语言模型。它采用了n元依赖假设,即当前词的概率,只依赖于前n-1个词。即:

不考虑平滑,模型概率估计使用最大似然概率:

这种估计理解起来比较简单,即当前历史词下出现当前词,占当前历史词下出现所有可能词的比重。然而这种估计方法,会遇到我们上述提到的参数空间过大的问题。语料中不可能覆盖Vn个估计场景,肯定会有很多零点,如果使用最大似然,最后很多句子的概率都会是0,这会导致Ngram基本不可用。

平滑技术

平滑技术,可以说是ngram得以应用的重要原因,它很好地解决了参数空间大,数据稀疏的问题。工业应用中,最常用的是Katz平滑和KN平滑技术。

平滑理解起来很简单,就是把概率高的文法进行折扣,折扣出来的概率分给低概率的文法,即“劫富济贫”。以下图为例,即将w1到w4的概率,分给w5到w10。

加一平滑是最简单的平滑算法,可以帮助我们理解平滑的本质。所有的文法的频次都加1,这样就不存在概率为0的文法了。反之,高频词文法的概率得到了一定程度的降低。

语言模型的评价指标

交叉熵和困惑度是用来评估语言模型最重要的两个指标。

交叉熵(crossentropy)的定义来自预测概率与压缩算法的关系,给定语言模型下可以得到一个压缩算法,对一个概率为的句子,用bits保存该句子。交叉熵可以理解为,在给定语言模型下的压缩算法,对句子中每个词需要的平均bits数。

交叉熵一般用下面的公式计算,m为概率p的模型:

2H这个值即为困惑度(ppl)。从直觉上,我们可以把困惑度理解为在随机实验中选择随机变量的加权平均数。越小的困惑度对应一个越好的语言模型,语言模型的预测能力越强。

此外,实际产品中的性能,如语音识别中的字错误率,输入法中的句准确率等,也是衡量模型好坏的标准。

语言模型技术的最新进展

语言模型的最新进展,主要集中在神经网络的应用上。Bengio最早提出nnlm,将几个历史词拼在一起作为输入,将当前词放在输出层作为目标。为了解决词典的高维数问题,nnlm利用了映射层,对输入进行降维。Nnlm属于连续型模型,自带平滑,对相同的词历史有一定的聚类功能,一定程度上增加了模型的鲁棒性。如果和ngram模型进行融合,实验中会获得进一步的提升。

因Rnn在序列建模上有很大的优势,Mikolov在nnlm上的基础上,提出了rnnlm。Rnnlm将词历史抽象成一个state,降低了输入维数。此外,为了解决输出维数,将输出层的词进行聚类,通过因式分解,降低了计算复杂度。

Mikolov的rnnlm之后,lstm、cnn在语言模型上也有研究陆续在跟进。此外,在输入层,引入语义特征,也会带来性能的提升。语言模型作为语音识别、OCR、输入法等产品中的重要模型,未来如何融合语义和产品、提升用户体验,我们充满期待。

雷锋网注:本文为雷锋网大牛讲堂授权雷锋网发布,如需转载请联系原作者,并注明作者和出处,不得删减内容。如有兴趣可关注公号地平线机器人技术,了解最新消息。

本文作者:大牛讲堂

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-05 16:33:53

大牛讲堂 | 语音专题第二讲,语言模型技术的相关文章

大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

雷锋网按:徐荣强(Kevin),地平线硬件音频工程师.2011年11月毕业于英国爱丁堡大学通信与信号处理专业,曾任诺基亚,联想,微软高级音频工程师.现在Horizon-Robotics负责语音相关硬件系统设计,涉及远场高灵敏度麦克风阵列设计,高精度音频硬件编解码器评估验证,远场语音前处理算法的评估验证,涉及声源定位,波束形成,盲信号分离,回声抑制及平稳降噪等相关技术算法. 麦克风阵列的语音信号处理技术 熟悉人工智能的朋友一定明白,语音交互对于人机对话交互的重要意义,而一个完整的语音交互涉及到人的

语音专题第四讲,语音识别之解码器技术简介|大牛讲堂

雷锋网按:本文作者潘复平,地平线机器人语音识别算法工程师.博士毕业于中国科学院声学研究所,曾任声学所副研究员.百度语音技术部资深工程师等职位.在中科院工作期间曾领导完成多个"863".教育部和中科院的科研项目.在百度工作期间把解码器的搜索空间大小压缩到了原来的十分之一,解码速度提高了约30%,并在置信度.VAD等方面大幅提高了系统性能.现任地平线机器人语音识别算法工程师,深度参与地平线"安徒生"智能家居平台的研发. 语音识别技术,也被称为自动语音识别(Automat

大牛讲堂|语音专题第三讲,声学模型

雷锋网(公众号:雷锋网)按:本文作者牛建伟,地平线语音算法工程师.硕士毕业于西北工业大学,曾任百度语音技术部资深工程师.主要工作方向是语音识别中声学模型的算法开发和优化,负责深度学习技术在声学模型上的应用和产品优化.参与了百度最早的深度学习系统研发,负责优化语音搜索.语音输入法等产品:后负责百度嵌入式语音开发,其负责的离线语音识别性能超越竞品.现任地平线机器人语音识别算法工程师,深度参与地平线"安徒生"智能家居平台的研发. 声学模型 语音技术在近年来开始改变我们的生活和工作方式.对于某

大牛讲堂 | 深度学习Sequence Learning技术分享

雷锋网按:本文作者都大龙,2011年7月毕业于中科院计算技术研究所:曾任百度深度学习研究院(IDL)资深研发工程师,并连续两次获得百度最高奖-百万美金大奖:现在Horizon Robotics负责自主服务机器人.智能家居以及玩具方向的算法研究与开发,涉及深度学习.计算机视觉.人机交互.SLAM.机器人规划控制等多个领域. 深度学习独领风骚 人工智能领域深度学习独领风骚自2006 年Geoffery Hinton等在<科学>( Science) 杂志发表那篇著名的论文开始, 深度学习的热潮从学术

大牛讲堂 | 山世光博士:自动驾驶系统中的目标检测技术

雷锋网按:作者山世光博士,中科院计算所研究员.博导,主要从事计算机视觉.模式识别.机器学习等相关研究工作.迄今已发表CCF A类论文50余篇,全部论文被Google Scholar引用9000余次.现任IEEE TIP,TIPNeurocomputing和PRL等国际学术刊物的编委(AE).研究成果曾获2005年度国家科技进步二等奖和2015年度国家自然科学奖二等奖. 本文中,山世光博士主要给我们分享梳理了物体检测技术的近期进展.  1.  Viola-Jones人脸检测器   物体检测在整个计

余凯与雷鸣漫谈嵌入式人工智能 | 大牛讲堂

2017年2月的最后一天,北京大学"人工智能前沿与产业趋势"研究生课第二讲如约和同学见面.课程依旧由北大人工智能创新中心主任.百度七剑客之一.酷我音乐创始人雷鸣老师坐镇,而邀请的嘉宾则是地平线机器人创始人&CEO.中组部"千人计划"国家特聘专家.机器学习专家.互联网人工智能领域全球领导者之一余凯博士. 本讲围绕的主题是嵌入式人工智能,涉及了嵌入式人工智能的本质特征.软硬件结合联合优化.应用场景及未来的发展机会等等,亮点颇多. 余凯博士首先以"人工智

INTERSPEECH 2017系列 | 语音识别之语言模型技术

随着iPHONE 4S中siri的出现,越来越多的民用语音识别出现在大家眼前.现在市面上各种语音输入法.语音机器人层出不穷.下图是去年阿里云栖大会,基于iDST语音技术的ET机器人.现在市面上漫山遍野的智能音箱大战,其中也包含语音识别技术. 语音识别技术,通俗讲叫语音转文字,speech-to-text,是将观测得到的语音输入信号,转化成与之对应的文本序列的过程.传统语音识别系统如下图所示,包括特征提取.声学模型.语言模型和解码器四部分,通过特征提取将原始音频信号分帧加窗,转化成有利于机器进行识

神经网络算法Batch Normalization的分析与展望 | 大牛讲堂

雷锋网(公众号:雷锋网)按:作者罗恒,地平线机器人技术资深算法研究员.2011年博士毕业于上海交通大学,后随Yoshua Bengio从事博士后研究,2014年加入百度深度学习实验室,参与深度学习在搜索中应用.PaddlePaddle研发等工作.2016年加入地平线机器人公司,负责深度学习模型压缩与加速.   训练更深的神经网络近年来一直是深度学习领域的重要趋势之一,2015年初Google提出的Batch Normalization 算法使得深层神经网络训练更加稳定,加快了收敛的速度,甚至同时

大牛讲堂|SLAM最终话:视觉里程计

雷锋网按:本文作者高翔博士.Simultaneous Localization and Mapping,即时定位与地图构建技术.无论在室内.野外.空中还是水下,SLAM是机器人进入未知环境遇到的第一个问题.本期将给大家介绍SLAM的视觉里程计. 本讲主要关注视觉里程计.为了讲清楚它的来龙去脉,我们会进行一些公式的推导.视觉里程计算法需要大量的几何知识,我们将在必要的时候,以Tips的形式介绍一些背景知识. 一.里程计 在里程计问题中,我们希望测量一个运动物体的轨迹.这可以通过许多不同的手段来实现