为提升在线语音识别效率,他创造了两种升级版算法模型

近日,阿里算法专家坤承携《使用改进版本的LATENCY-CONTROLLED BLSTM 算法模型提升在线语音识别效率》(IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION)参与ICASSP2017大会。


论文作者坤承与参会者交流

论文研究的出发点在于,为了能够取得更好的语音识别准确率,在声学模型建模中使用了Latency-controlled BLSTM 模型。

详见95188:BLSTM-DNN hybrid语音识别声学模型的第一个工业应用
?spm=5176.100240.searchblog.7.zWq29M

与标准的BLSTM使用整句语音进行训练和解码不同,Latency Control BLSTM使用类似truncated BPTT的更新方式,并在cell中间状态处理和数据使用上有着自己的特点,如下图所示:

训练时每次使用一小段数据进行更新,数据由中心chunk和右向附加chunk构成,其中右向附加chunk只用于cell中间状态的计算,误差只在中心chunk上进行传播。时间轴上正向移动的网络,前一个数据段在中心chunk结束时的cell中间状态被用于下一个数据段的初始状态,时间轴上反向移动的网络,每一个数据段开始时都将cell中间状态置为0。该方法可以很大程度上加快网络的收敛速度,并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同,不同之处在于中心chunk和右向附加chunk的维度可以根据需求进行调节,并不必须与训练采用相同配置。LC-BLSTM的优点在于能够在可接受的解码延迟下保持BLSTM声学模型的识别准确率,从而使得BLSTM可以被用于在线语音识别服务。

LC-BLSTM的上述优点是以增加计算量为代价的,为了取得更好的识别准确率,在解码时通常需要比较长的右向附加chunk,这会增加额外的计算资源消耗,提高计算成本。如下图所示,右向附加chunk也是使用BLSTM进行计算,在Nc=30,Nr=30的情况下,计算量将是传统BLSTM的两倍。

本论文的主要贡献在于提出了两种改进的LC-BLSTM模型,在基本保持识别准确率的同时,能够降低解码时的计算量。这样可以降低计算成本,一台服务器可以支持的并发数将会是原来的1.5到2倍。

我们提出的第一种改进方法如下图所示,主要的改进在于右向chunk的计算。


首先对于时间轴上正向移动的LSTM,我们去掉了右向chunk部分的计算。而对于时间轴上反向移动的LSTM,右向chunk部分的计算主要是为中心chunk提供cell的初始状态,我们简化了这部分的计算,使用正向全连接来代替LSTM,将f()的输出取平均后作为中心chunk的初始状态。以上改进大大降低了模型的计算量,switchboard数据集上的实验结果如下表所示,在基本保持识别准确率的同时,可以使解码速度提升40%以上。

我们提出的第二种改进方法如下图所示,首先对于时间轴上正向移动的LSTM,我们同样去掉了右向chunk部分的计算。


另外我们发现对于BLSTM模型,时间轴上反向传播的LSTM不如时间轴上正向传播的LSTM重要,因此我们使用简单RNN模型来代替时间轴上反向传播的LSTM,简单RNN的模型计算量比LSTM小得多,因此如此改进以后模型的计算速度也会大大加快,switchboard上的实验结果表明,在轻微损失识别率的情况下,可以使解码速度提升60%以上。

原文链接

时间: 2024-09-20 23:29:49

为提升在线语音识别效率,他创造了两种升级版算法模型的相关文章

普元EOS Platform 7.0 LA版发布 提升3倍效率落地“云开发”

中介交易 SEO诊断 淘宝客 云主机 技术大厅 2012年9月,国内最大的平台软件厂商普元发布业务应用平台EOS Platform 7.0 LA版.该版本以SOA技术架构为基础,顺应了当下云PaaS平台的发展趋势,真正意义上实现了"在线云开发".(注:LA版即有限使用版,性能更为稳定的GA版预计将于2013年年初发布) EOS Platform 7.0是基于J2EE.Eclipse.Flex.XML等多种技术标准的平台,实现了配置化.组件化.图形化.一体化等特性,可以为客户提供完整的覆

诺基亚E75的和诺基亚E55提升电邮效率,更新互联网数据先锋

MWC 09:诺基亚提升互联网体验和效率 2012-10-03 19:45   来源:泡泡网   作者:王晨 硅谷网10月4日讯 诺基亚公司总裁兼首席执行官康培凯表示:"通过全新的至酷应用.优化的移动导航和一键式电子邮件接入,这些解决方案将使人们更从容地在生活和工作中发现并优选那些对他们真正重要的事情.在目前的经济环境下,每个人都会更密切的关注技术的成本和收益.人们能够在诺基亚今天所发布的终端和服务上看到,我们正以怎样的方式来提供解决方案――那就是:以可承受的价格拥有重大的效益,无需对价格妥协,

Windows Server 2008提升AD管理效率

AD从Server 2003迁移到Server 2008后,带来的不仅仅是性能上的提升,对管理者来说最享受的是管理与维护中的便捷与高效.Server 2008潜力无限,下面笔者与大家分享3个可提升AD管理效率与安全的技巧. 1.不重启DC快速进入AD脱机模式 做过AD(活动目录)的人都知道,基于Windows Server 2000/2003的DC(域控制器)如果要脱机维护AD就必须重启DC然后进入AD的还原模式才可以.这样做其弊端是显而易见的,AD下的诸如RIS服务.文件服务.打印服务等都会受

WPS如何提升文章修改效率

  如今,耍笔杆的人越来越少,敲键盘的人越来越多.用电脑写东西同样离不开修改,修改自己的文章,修改他人的文章,多人修改同一篇文章--其中会涉及到不少影响效率的问题.下面介绍用经典文字编辑软件EmEditor和国产办公软件WPS,实现提升文章修改效率的三种高级技法. 1. 解决内容替换的难题 文章修改时若出现不好寻找统一规律的大量问题.例如,搜集自网络的文章,由于网页格式符号作怪,复制来的文本在每段后可能带有一些无用的字符串,这样的字符串往往不仅内容不尽相同,甚至字串长度也不同,无法用普通替换来完

【译】17个提升iOS开发效率的必用工具

[译]17个提升iOS开发效率的必用工具 2015-11-10 09:44 编辑: suiling 分类:iOS开发 来源:netguru.co 本文由CocoaChina译者@红茶魔术师-大红袍 翻译自netguru.co 原文:17 Must Have Tools to Speed up Development in iOS 作者介绍:Patryk Kaczmarek, iOS开发者 毕业于波兹南工业大学.起初从事工业制造方面的工作,但最终决定转向iOS相关的专业开发.他视工作为乐趣,而不仅

提升医疗服务效率 移动临床计算亮相IDF

本文讲的是提升医疗服务效率 移动临床计算亮相IDF,4月13日,由英特尔主办的全球IT界高水平的技术论坛活动 --2011英特尔信息技术峰会(Intel Developer Forum, IDF),在北京召开. ▲IT168全程直播本次盛会 点击查看专题报道 记者在IDF峰会现场发现这一次2011IDF峰会与往届不同,医疗行业的服务商占据了很大一部分展示.记者在来到医疗展区了解到,相关的医疗服务商纷纷在IDF大会上亮相了最好的产品,从医疗的设备到管理的解决方案几乎是琳琅满目的.记者在戴尔医疗展示

捷尚视觉陆福明:GPU如何提升服务器处理效率

[天极网服务器频道1月23日消息]本月初第四届http://www.aliyun.com/zixun/aggregation/1970.html">中国智慧城市大会在北京召开,作为本次大会的钻石赞助商NVIDIA在会场为我们展示了大量基于视觉处理产品的智慧城市解决方案和技术.在大会间隙,我们也对NVIDIA的重要合作伙伴,捷尚视觉科技有限公司的副总裁陆福明进行了专访,陆福明为我们介绍了目前NVIDIA的产品如何助力于智慧城市的建设,以及当今智慧城市建设发展的现状. GPU如何提升服务器处理

NetApp推出增强版SANscreen 助客户提升数据中心效率

    NetApp公司近日推出增强版的SANscreen5.0.新版本是对NetApp屡获殊荣的SANscreen产品套件的又一有力延伸,将帮助客户提高存储管理能力,以进一步节省成本,提升数据中心效率. NetApp SANscreen 通过积极地整合存储资源与应用需求,从而帮助将数据中心的高效率扩展到存储.SANscreen可在存储环境中实现实时.异构及服务分级能力,允许客户把存储作为一种真正的端到端的 IT 服务进行管理.另外,SANscreen拥有可供实施的服务水平信息,不管是存储团队,

分享3个可提升AD管理效率与安全的技巧

AD从Server http://www.aliyun.com/zixun/aggregation/19058.html">2003迁移到Server 2008后,带来的不仅仅是性能上的提升,对管理者来说最享受的是管理与维护中的便捷与高效.Server 2008潜力无限,下面笔者与大家分享3个可提升AD管理效率与安全的技巧. 1.不重启DC快速进入AD脱机模式 做过AD(活动目录)的人都知道,基于Windows Server 2000/2003的DC(域控制器)如果要脱机维护AD就必须重启