Deepmind语音生成模型WaveNet正式商用:效率提高1000倍

2017年10月4日,Deepmind发表博客称,其一年前提出的生成原始音频波形的深层神经网络模型WaveNet已正式商用于Google Assistant中,该模型比起一年前的原始模型效率提高1000倍,且能比目前的方案更好地模拟自然语音。

以下为Deepmind博客所宣布的详细信息,雷锋网(公众号:雷锋网)摘编如下

一年之前,我们提出了一种用于生成原始音频波形的深层神经网络模型WaveNet,可以产生比目前技术更好和更逼真的语音。当时,这个模型是一个原型,如果用在消费级产品中的计算量就太大了。

在过去12个月中,我们一直在努力大幅度提高这一模型的速度和质量,而今天,我们自豪地宣布,WaveNet的更新版本已被集成到Google Assistant中,用于生成各平台上的所有英语和日语语音。

新的WaveNet模型可以为Google Assistant提供一系列更自然的声音。

为了理解WaveNet如何提升语音生成,我们需要先了解当前文本到语音(Text-to-Speech,

TTS)或语音合成系统的工作原理。

目前的主流做法是基于所谓的拼接TTS,它使用由单个配音演员的高质量录音大数据库,通常有数个小时的数据。这些录音被分割成小块,然后可以将其进行组合以形成完整的话语。然而,这一做法可能导致声音在连接时不自然,并且也难以修改,因为每当需要一整套的改变(例如新的情绪或语调)时需要用到全新的数据库。

另一方案是使用参数TTS,该方案不需要利用诸如语法、嘴型移动的规则和参数来指导计算机生成语音并进行语音拼接。这种方法即便宜又快捷,但这种方法生成的语音不是那么自然。

WaveNet采取完全不同的方法。在原始论文中,我们描述了一个深层的生成模型,可以以每秒处理16000个样本、每次处理一个样本党的方式构建单个波形,实现各个声音之间的无缝转换。

WaveNet使用卷积神经网络构建,在大量语音样本数据集上进行了训练。在训练阶段,网络确定了语音的底层结构,比如哪些音调相互依存,什么样的波形是真实的以及哪些波形是不自然的。训练好的网络每次合成一个样本,每个生成的样本都考虑前一个样本的属性,所产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音,而且可以从混合数据集中创建任何独特声音。与TTS系统一样,WaveNet使用文本输入来告诉它应该产生哪些字以响应查询。

原始模型以建立高保真声音为目的,需要大量的计算。这意味着WaveNet在理论上可以做到完美模拟,但难以用于现实商用。在过去12个月里,我们团队一直在努力开发一种能够更快地生成声波的新模型。该模型适合大规模部署,并且是第一个在Google最新的TPU云基础设施上应用的产品。

(新的模型一秒钟能生成20秒的音频信号,比原始方法快1000倍)

WaveNet团队目前正在准备一份能详细介绍新模型背后研究的论文,但我们认为,结果自己会说话。改进版的WaveNet模型仍然生成原始波形,但速度比原始模型快1000倍,每创建一秒钟的语音只需要50毫秒。该模型不仅仅速度更快,而且保真度更高,每秒可以产生24,000个采样波形,同时我们还将每个样本的分辨率从8bit增加到16bit,与光盘中使用的分辨率相同。

这些改进使得新模型在人类听众的测试中显得发声更为自然。新的模型生成的第一组美式英语语音得到的平均意见得分(MOS)为4.347(满分5分),而真实人类语音的评分只有4.667。

新模式还保留了原始WaveNet的灵活性,使我们能够在训练阶段更好地利用大量数据。具体来说,我们可以使用来自多个语音的数据来训练网络。这可以用于生成高质量和具有细节层次的声音,即使在所需输出语音中几乎没有训练数据可用。

我们相信对于WaveNet来说这只是个开始。我们为所有世界语言的语音界面所能展开的无限可能而兴奋不已。

本文作者:岑大师

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-20 10:01:09

Deepmind语音生成模型WaveNet正式商用:效率提高1000倍的相关文章

DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

编者按:Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果--WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS. WaveNets是一种卷积神经网络,能够模拟任意一种人类声音,生成的语音听起来比现存的最优文本-语音系统更为自然,将模拟生成的语音与人类声音之间的差异降低了50%以上. 我们也将证明,同一种网络能够合成其他音频信号

极限元算法专家:深度学习在语音生成问题上的典型应用

深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势:伴随着这项技术的不断成熟,深度学习在智能语音领域率先发力,取得了一系列成功的应用. 这次分享会中,雷锋网(公众号:雷锋网)邀请到了中科院自动化所的刘斌博士.刘斌,中科院自动化所博士,极限元资深智能语音算法专家,中科院-极限元智能交互联合实验室核心技术人员,曾多次在国际顶级会议上发表论文,获得多项关于语音及音频领域的专利,具有丰富的工程经验.刘斌博士会与大家分享近年来深度学习在语音生成问题中的新方法,围

联通总经理陆益民:全国285城市同步正式商用

9月28日下午15时消息,在今天下午中国联通举行的新闻发布会上,中国联通总经理陆益民宣布了联通3G正式商用的范围,他表示,联通10月1日将在全国285个城市同步实现3G业务的正式商用. 资费大幅下调门槛 陆益民表示,联通3G将给用户全新的资费体验,联通对3G实施全国统一资费和统一套餐,并引入MT计费模式和无线上网卡自动升级功能,让用户明明白白消费. 他说,根据试商用期间体验用户的反馈,我们进一步降低了基本套餐的月费门槛,其中大中专学生套餐仅为每月66元.同时套餐内增加了超大数据流量,大幅下调了套

中移动西藏拉萨正式商用TD网络

5月9日下午消息,中国移动西藏公司今日宣布,其3G网络TD-SCDMA在西藏启动商用.这意味着3G网络在平均海拔4000米以上的青藏高原上也开始商用. 西藏TD正式商用 西藏海拔高,建设3G网络难度最大,但中国移动西藏公司却是最早实现TD商用的二期建网省级公司之一.西藏移动表示,已在网络.号段.终端.业务.服务和活动等各个方面都做了精心的准备,以确保此次3G(TD-SCDMA)的启用万无一失. 目前,中国移动西藏公司拉萨3G(TD-SCDMA)网络已建设完毕,并向后完成了5次网络优化,完成了核心

中国联通3G正式商用特别报道

WCDMA技术最成熟却商用最晚,实力相对较弱却仍从容不迫,从获得牌照到试商用,中国联通在外界的质疑与观望中始终坚持着自己的节奏.9月28日,中国联通3G业务正式商用的大幕终于徐徐拉开. 我们有理由相信,这是一次运筹帷幄的出发:从联通集团部门经理的脸上,我们看到的是"信心":从网络终端的准备上,我们看到的是"齐备":在省市公司的采访中,我们看到的是"坚定":在合作伙伴的寄语里,我们看到的是"希望". 中国联通,如果你准备好了,那

深度:生成模型(GAN)的最新进展

雷锋网按:本文作者李嫣然,香港理工大学在读博士生,研究方向为自然语言理解与对话生成. 在过去一两年中,生成式模型 Generative Adversarial Networks(GAN)的新兴为生成式任务带来了不小的进展.尽管 GAN 在被提出时存在训练不稳定等诸多问题,但后来的研究者们分别从模型.训练技巧和理论等方面对它做了改进.本文旨在梳理这些相关工作. 尽管大部分时候,有监督学习比无监督的能获得更好的训练效果.但真实世界中,有监督学习需要的数据标注(label)是相对少的.所以研究者们从未

联通3G正式商用套餐资费确定:月租96元起

9月7日消息,中国联通3G正式商用后将降低资费套餐门槛,最低档套餐由186元降至96元,同时,各档套餐将提高所含的上网流量及其他增值业务价值. 根据中国联通5月17日开始3G业务试商用时公布的全国统一资费,分为基本套餐.无线上网卡套餐和可选包三种方式.其中,试商用期间的基本套餐从186元至1686共七档,套餐内语音资费水平为0.24元-0.36元/分钟. 据透露,中国联通将于9月28日开始3G正式商用,并将于9月26日开始推广新的3G资费.而按照中国联通此前的规划,第一阶段,联通第一批55城市5

青云QingCloud上海1区正式商用:四大升级 连接未来

11月17日,青云QingCloud宣布上海 1 区(SH1)正式商用,同时实现基础设施.技术架构.产品服务.计费模式四大升级.上海1区将依托运营商级核心数据中心.自主多线动态BGP网络.支持虚拟化与容器技术的统一框架,以及全闪存架构,为华东地区企业用户提供性能更强.稳定性更佳的公有云服务.此外,QingCloud还宣布了第7次资费下调,主机.超高性能盘.PaaS 服务资费全面下调 23.5%,结合新增预留实例和充值返还,最高能够为用户节省 65% 的IT支出. 上海1区是继北京1区(PEK1)

java-如何把大量的表导出并生成模型(模型即是PowerDesigners的那种模型图)?

问题描述 如何把大量的表导出并生成模型(模型即是PowerDesigners的那种模型图)? 公司的表结构比较混乱 我想把表结构导出 然后生成模型 重新架构下 解决方案 可以实现.也可以把模型生成数据库表都可以.很好的工具.具体怎么用你上网搜很简单. PowerDesigners 将表转化模型 http://blog.csdn.net/wuwo333/article/details/7640495 解决方案二: http://www.docin.com/p-643327889.html