AI根据视频画面自动配音 ,真假难辨 !(附数据集)

先来做个“真假美猴王”的游戏。

你将看到两段画面相同的视频,请判断哪段来自视频原声,哪段是AI根据视频画面配上的假声?

莫非两个都是真的?不可能,答案文末揭晓。(还有更多真假难辨的视频原声和配音大对比)

真假难辨,简直让人怀疑耳朵。模型合成的假音效,什么时候都这么逼真了?一切还得从这个自动为自然环境下的视频配音的项目说起。


视听关联

看闪电,知雷声。

对人类来说,声音和视觉通常会打包出现传递信息。就像一个孩子看到闪电会下意识捂住耳朵,看到沸腾的水会想起水汽呼呼的声音。

在论文(Visual to Sound: Generating Natural Sound for Videos in the Wild)中,北卡罗来纳大学的博士生Yipin Zhou,其导师Tamara L. Berg联合Adobe公司的Zhaowen Wang、Chen Fang和Trung Bui三人,想做出一个计算模型来学习视觉和声音间的关系,减少繁琐的音频编辑流程。


论文一作Yipin Zhou

要做出这样一个模型,那第一步肯定是找出一个合适的数据集来训练。

这个数据集可没有那么好找。

加工数据集

研究人员掐指一算,觉得AudioSet不错。


这是今年3月谷歌开放的一个大规模的音频数据集,包含了632个类别的音频及2084320条人工标记的音频,每段音频长度均为10秒。人与动物、乐器与音乐流派、日常环境的声音均覆盖在数据集内。

数据集代码地址:

https://github.com/audioset/ontology

但由于AudioSet中很多的音频与视频的关联松散,目标声音可能被音乐等其他声音覆盖,这些噪音会干扰模型学习正确的声音和图像间的映射(mapping),因此也不是很理想。研究人员先清理了数据的一个子集,让它们适应生成任务。

研究人员从AudioSet中选择10个类别进行进一步的清理,分别为婴儿啼哭、人打鼾、狗、流水、烟火、铁路运输、打印机、打鼓、直升机和电锯。每个类别中包含1500-3000个随机抽取的视频。

其中4个类别的视频帧及相应波形。图像边界颜色与波形上的标记标记一致,表示整个视频中当前帧的位置

之后,研究人员用亚马逊众包平台Mechanical Turk(AMT)清理数据。值得一提的是,李飞飞在建立ImageNet数据集时,也是借助这个可以把任务分发给全世界坐在电脑前的人的平台做起来的。

在这个任务中,研究人员借助AMT上兼职的力量验证在图像和音频形态下,视频片段中关注的物体或动作是否存在。如果在视听两种环境下都存在,则认为它是一个噪音较少的可用视频。为了尽可能保留更多数据,研究人员将每段视频分割成两秒钟的短视频,分别标注标签。

这样一来,图像和音频模式上共标注了132209个片段,每个都被3个兼职做了标记,并从原始数据中删除了34392个片段。研究人员在合并相邻的短片段后,总共得到了28109个筛选后的视频。这些视频平均长度为7秒,总长度为55小时。

下图左表显示了视频数量和每个类别的平均长度,而饼图展示了长度的分布。由图中可见大多数视频的长度超过8秒。

左:每个类别视频数量及平均长度/右:视频长度的分布

研究人员将这个数据集命名为VEGAS(Visually Engaged and Grounded AudioSet ) 。

准备模型

数据集搞定后,研究人员开始了模型研究。

研究人员将任务当成一个条件生成问题,通过训练条件生成模型从一个输入视频合成原始波形样本。条件概率如下:

在这个概率中,x1,……,Xm为输入视频帧的表示,y1,……,yn为输出的波形值,是0到255之间的整数序列。值得注意的是,m通常远远小于n,因为音频的采样率远高于视频的采样率,因此音频波形序列比同步视频的视频帧序列长得多。

大体来说,这个模型由两部分构成,即声音生成器和视频编码器。

声音生成器

研究人员想直接用生成模型合成波形样本。为了得到音效说得过去的音频,他们选用了16kHz的音频采样频率。这就导致序列相当长,给生成器出了个难题。最后,研究人员选择了Yoshua Bengio团队在去年发表的论文《SampleRNN: An Unconditional End-to-End Neural Audio Generation Model》中提出的SampleRNN来合成声音。

论文地址:
https://arxiv.org/abs/1612.07837

SampleRNN是一种递归神经网络,它由粗到细的结构使模型产生极长的序列,而且每一层的周期性结构都能捕捉到关联不紧密的样本间的依赖关系。

SampleRNN已经应用于语音合成和音乐生成任务。在这个项目中,研究人员用它来为自然条件下的视频生成声音。这意味着变化更大、结构模式更少和比语音或音乐数据更多的噪音。

确实是个挑战。

SampleRNN模型的简化结构如下图所示。

声音生成器的简化架构

图中将示例结构简化到2层,但在实际操作中可能包含更多层次。该模型由多个层、细层(底层)是一个多层感知器(MLP),它从下一个粗层(上层)和前一个k样本中输出,生成一个新样本。

3种编码视觉信息和系统的变体

之后,研究人员提出了三种类型的编码器-解码器结构,这些信息可以与声音生成网络相结合,形成一个完整的框架。这三种变体分别为帧到帧法(Frame-to-frame method)、序列到序列法(Sequence-to-sequence method)和基于流的方法(Flow-based method)。

原文发布时间为:2017-12-13

本文作者:文婧 

时间: 2024-09-17 19:59:33

AI根据视频画面自动配音 ,真假难辨 !(附数据集)的相关文章

如何用数字快捷键改变QQ影音视频画面?

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   QQ影音是由腾讯公司最新推出的一款支持任何格式影片和音乐文件的本地6186.html">播放器.QQ影音首创轻量级多播放内核技术,深入挖掘和发挥新一代显卡的硬件加速能力,软件追求更小.更快.更流畅,让您在没有任何插件和广告的专属空间里,真正拥有五星级的视听享受! QQ影音1.2版的发布为近期的国内播放器市场带来一缕清风.它提供了方便的快捷键,用数

阿里用AI为视频加标签做分类 准确率87.41%夺LSVC 2017冠军

近日,大规模视频分类比赛ACM MM LSVC公布了本年度最佳成绩,阿里巴巴iDST团队凭借平均准确率87.41%夺得冠军. ACM MM是全球顶级的机器视觉会议,LSVC作为ACM MM的重要一部分,全称为Large-Scale Video Classification Challenge,主要考验参赛队伍在大规模视频分类算法方面的能力. 比赛数据集包含了来自Youtube的大约16万的视频,一共8000个小时.需要参赛队伍对视频中的500类内容做出识别,包含社会事件(如:橄榄球比赛).物体(

爱剪辑导出视频画面很小很差怎么办?

  爱剪辑导出视频画面很小很差怎么办?            1.爱剪辑制作完成,导出视频会发现画质和原来的简直差远了,这是怎么回事.其实这是咱自己设置出问题了,如何设置呢,看下面. 2.打开爱剪辑会弹出设置窗口,相信大家一般会选择关闭吧,其实这里应该设置成视频大小. 3.一般建议设置成720p就够用了,不过如果能查到原视频的大小最好设置成一样的,或是相近的. 4.然后就是导出视频的时候,导出尺寸会默认是开始设置的大小,不过可以修改,建议不要修改,除非开始忘记设置了,会对画质有一定影响. 5.视

win7系统怎么使用百度影音截图功能截取精彩视频画面

  win7系统怎么使用百度影音截图功能截取精彩视频画面          具体步骤: 1.在百度影音左下角点击"相机"按钮就可以截图; 2.在弹出的另存为框中点击"浏览"来选择存放截图的位置.名称.图片格式等等; 3.设置好之后,我们可以勾选"不再显示截图对话框,直接截图",点击确定.以后就不会弹出该提示框了. 方法二: 1.在默认情况下按下"ALT+A"即可进行截图; 2.在百度影音的左上角点击"百度影音&quo

KK录像机在Win7、Win8录制的视频画面不完整怎么办

  KK录像机在Win7.Win8录制的视频画面不完整怎么办          解决方法: 方案一:下载最新版本,KK录像机2.5.0及以后版本解决了该问题 方案二:桌面空白处右击-屏幕分辨率-放大或缩小文本和其他项目,勾选"较小(S)-100%(默认)",点击[应用]按钮,并注销电脑然后重新登录系统即可.

YouTube将为视频提供自动生成字幕

YouTube表示,将为所有英语视频提供自动生成的字幕.对于聋哑用户和希望观看其他语言视频的用户来说,这是个好消息. Google软件工程师肯·哈伦斯坦(Ken Harrenstein)在一次http://www.aliyun.com/zixun/aggregation/10527.html">新闻发布会上演示了这一技术,并阐述了Google开发该技术的原因--跨越语言障碍.改进搜索等.哈伦斯坦称,过去5年来他一直在开发该技术. 通过点击播放窗口右下角的一个按钮,YouTube观众就可以看

apache总数自动挂掉,附上报错日志,求大神啊!!

问题描述 apache总数自动挂掉,附上报错日志,求大神啊!! [Fri Jan 15 19:14:35.434536 2016] [mpm_winnt:notice] [pid 3636:tid 348] AH00363: Child: Terminating 80 threads that failed to exit. [Fri Jan 15 19:14:35.434536 2016] [mpm_winnt:notice] [pid 3636:tid 348] AH00364: Child

ssh整合-ssh上传视频到页面后,怎么才能显示出那个视频画面,并且可以播放,

问题描述 ssh上传视频到页面后,怎么才能显示出那个视频画面,并且可以播放, ssh上传视频到页面后,怎么才能显示出那个视频画面,我文件上传把视频上传到项目下,怎么才能在页面显示画面 解决方案 可以用标签 解决方案二: 解决方案三:

windows-如何实现对视频剪辑进行配音的PC端软件,求指教!

问题描述 如何实现对视频剪辑进行配音的PC端软件,求指教! 想做一个对视频剪辑进行配音的软件,非移动客户端的,是PC端windows应用,想用VC++开发,哪位能提供相关源码或学习链接,提供技术指导也可以,谢谢! 解决方案 github/codeproject上有很多例子,自己google. 随便找几个http://www.codeproject.com/Articles/19590/WAVE-File-Processor-in-Chttp://alvas.net/alvas.audio,tip