百度研究出深度学习语音识别系统DeepSpeech,嘈杂

摘要: 不久前,百度的首席科学家吴恩达(Andrew Ng)在接受采访时曾谈到了百度最近人工智能项目的进展情况,强调了近期百度重点是攻关语音识别。现在他们已经在这方面取得了突破。 这项

不久前,百度的首席科学家吴恩达(Andrew Ng)在接受采访时曾谈到了百度最近人工智能项目的进展情况,强调了近期百度重点是攻关语音识别。现在他们已经在这方面取得了突破。

这项成果的名字叫做Deep Speech,是一款采用深度学习技术的语音识别系统系统。其独特之处在于,它可以在饭店等嘈杂环境下实现将近81%的辨识准确率。

81%的准确率听起来似乎不算高。但是同样环境下,其他的商业版语音识别API,包括Bing、Google以及Wit.AI等的最高识别率也只有65%。相比之下这就算十分突出的表现了。而且按照吴恩达的说法,这样的结果依然低估了Deep Speech与其他语音识别系统的准确率差异,因为Deep Speech进行比较时还把其他语音识别系统那些返回空白字符串的结果排除在外了。而且Deep Speech跟顶级的学术型语音识别模型(基于流行的数据集Hub5’00建模)相比也高出9个百分点。

百度首席科学家吴恩达称尽管这还只是一项研究,但是公司正在考虑将它集成到供智能手机和Baidu Eye之类的可穿戴设备使用的语音识别软件当中。而且百度还在开发与Amazon Echo类似、集成有语音助手的家电产品,名字叫做CoolBox。除此以外,百度在开发的智能自行车当然也能利用Deep Speech技术。

Deep Speech的基础是某种递归神经网络(RNN),这种递归神经网络经常被用于语音识别和文本分析。

但是Deep Speech的成功主要得益于一个长达10万小时的语音数据训练集。这是百度人工智能实验室团队用新颖的办法在嘈杂环境下建立的。其过程大致是这样的。首先百度收集了7000小时的语音会话数据,然后再将这些语音文件与包含有背景噪音的文件合成到一起,最后形成约10万小时的训练集。这些背景噪音包括了饭店、电视、自助餐厅以及汽车内、火车内等场景。相比之下,Hub5’00的数据集总共只有2300小时。

当然,这么庞大的数据大多数系统都不知道如何去处理。吴恩达表示,Deep Speech的成功很大程度上要取决于百度规模庞大的基于GPU的深度学习基础设施。GPU(图形处理器)往往是偏数学型计算的首选。许多深度学习系统都采用GPU避免通信瓶颈(不过微软的深度学习系统Adam 却走了不同的路线),但是像百度这样大规模的设施却是少见的。

百度的另一大改进,是对这个庞大的数据集采用了端到端的深度学习模型,而不是标准的、计算代价高昂的声学模型。传统上一般都会把语音识别分别为多个步骤,其中一步叫做语音调适,但是百度却不做这一步,而是给Deep Speech的算法提供大量的数据,然后让它去学习所有需要学习的东西。这种做法除了收获了准确率以外,还显著减少了代码库的规模。

这项研究是吴恩达领导的百度人工智能实验室多位研究人员的努力成果,论文发表在了康奈尔大学图书馆的arXiv.org网站上,感兴趣的可到此处下载。

时间: 2024-11-08 17:18:57

百度研究出深度学习语音识别系统DeepSpeech,嘈杂的相关文章

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

11月17日,在正在举行的2015全球超级计算大会(SC15)上,浪潮联合全球可编程逻辑芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同发布了一套面向深度学习.基于AlteraArria 10 FPGA平台.采用OpenCL开发语言进行并行化设计和优化的深度学习DNN的语音识别方案.同时,此次发布也标志着浪潮成为全球领先的具备GPU.MIC和FPGA三项HPC异构计算应用能力的HPC系统厂商. 深度学习,需要HPC"提速" 让计算机拥有接近人类的智能水平是IT行业最

传谷歌大脑之父将加盟百度 热衷研究机器深度学习

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 Coursera联合创始人吴恩达 央广网北京5月15日消息(记者刘祎辰)据中国之声<新闻晚高峰>报道,昨天晚间,有一则消息在微博上传开,说是中国互联网界最重量级的外援即将横空出世.外援的名字叫Andrew Ng,中文名叫吴恩达,而引入方,则是百度公司.那这样一则消息,虽然尚未得到百度的任何确认,但是已经引来了业内一片惊呼.那么这位

深度学习前瞻:吴恩达 + 百度 &gt; 谷歌吗?

导读:百度是中国网民上网时的常用工具,它致力于成为影响全球的力量.作为世界上人工智能领域的顶尖研究员,吴恩达先生能否助其成功挑战硅谷最大的互联网公司? 百老汇音乐厅位于旧金山北海岸,是新古典主义建筑,已拥有95年历史,历经岁月磨蚀,四周环绕数不清的脱衣舞俱乐部.从Blondie(金发女郎)到Ramones(莱蒙斯),曾有许多朋克乐队在此演出.但今年六月某个明亮的早晨,一位完全不同类型的"摇滚明星"在此登场.一小撮参加科技创业会议的人群簇拥着一位身穿蓝色礼服衬衫和深蓝套装.个子高高.说话

高性能计算技术也能助推大规模深度学习(百度实践)

更多深度文章,请关注:https://yq.aliyun.com/cloud 作者简介: Tiffany Trader,毕业于圣地亚哥州立大学和加州州立大学,长期致力于高性能计算.云计算.绿色计算新闻报道和分析,2015年开始担任全球知名高性能计算新闻网站HPCwire的总编辑.Tiffany Trader 的LinkedIn主页,Twitter主页.     来自百度硅谷人工智能实验室(SVAIL)的研究人员改进了众所周知的HPC通信技术,提升了通信速度,并且扩大了他们的神经网络训练规模,今天

互联网世界的“人工智能”——探秘“深度学习”的前世今生

最近一段时间里,Facebook.Google.Yahoo!.百度等各大公司都在尝试将深度学习(deep learning)算法运用到产品开发中,以期使产品更智能化,提升用户体验.在深度学习持续走红的当下,本文作者对这一概念做了梳理,并分享了他对深度学习的实用性及未来发展的看法. 本周一,加利福尼亚州的Lake Tahoe.Facebook CEO Mark Zuckerburg造访了神经信息处理系统(Neutral Information Processing Systems, 下文简称NIP

阿里忙收购,李彦宏在忙…“深度学习”

路线选择的不同,使百度与腾讯.阿里的移动互联网战略可比性越来越弱.但百度的这个战略也面临挑战,最大的不确定性来自于数据的来源 要搞清楚一个互联网公司当下的主要战略方向其实并不难,只要看它们的创始人在干嘛,基本就能猜个八九不离十.以这个标准看,腾讯的马化腾在抓手机QQ,搜狐的张朝阳逼着自己看雷人电视剧,新浪的曹国伟当然还是在发微博,阿里巴巴的马云--退休了-- 百度的李彦宏在做什么?他在年初成立了深度学习研究院(Institute of Deep Learning,IDL)并自任院长,亲自出马去延

深度学习奏响智能视频分析技术新乐章

在2017年两会热词中,被誉为互联网下一个风口的人工智能,成为两会期间大众的关注热点,与创业紧紧联系在一起,成为创业者的新宠.同时,网友也热衷于深扒人工智能背后的"黑科技",深度学习技术也因此成为关注点聚焦.其实,深度学习和安防搭配食用更美味. 深度学习奏响智能视频分析技术新乐章 随着各地视频接入规模的迅猛增长及视频监控对高清.智能.联网的要求越来越高,每天产生的数据量正以惊人的速度在不停增长.视频监控正迎来全新的大数据时代,数据越来越成为最宝贵的资源,如何有效对数据进行存储.共享以及

【BDTC先睹为快】邹永强:腾讯Mariana深度学习平台实战细节大曝光

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕.大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立"大数据基础设施"."大数据生态系统"."大数据技术"."大数据应用"."大

不用写代码就能实现深度学习?手把手教你用英伟达 DIGITS 解决图像分类问题

锋网首发.   引言 2006年,机器学习界泰斗Hinton,在Science上发表了一篇使用深度神经网络进行维数约简的论文 ,自此,神经网络再次走进人们的视野,进而引发了一场深度学习革命.深度学习之所以如此受关注,是因为它在诸如图像分类.目标检测与识别.目标跟踪.语音识别.游戏(AlphaGo)等多个领域取得了相当优秀的成绩,掀起了又一波人工只能浪潮.深度学习技术逐渐成为机器学习领域的前沿技术,近年来得到了突飞猛进的发展,这得益于机器学习技术的进步以及计算设备性能的提升.英伟达公司研发的图形处