英伟达、UC伯克利联合研究:条件GAN高分辨率图像合成与语义编辑pix2pixHD(论文+代码)

英伟达和UC Berkeley的研究者最近公开一个名为pix2pixHD的“用条件GAN进行2048x1024分辨率的图像合成和处理”项目,并公开了论文和代码。pix2pixHD能够利用语义标注图还原接近真实的现实世界图像,例如街景图、人脸图像等,并且只需简单的操作即可修改和搭配图像。

图:上方是输入的语义地图,下方是pix2pixHD合成图像

作者发布的视频介绍中,可以看到,你可以选择更换街景中车辆的颜色和型号,给街景图增加一些树木,或者改变街道类型(例如将水泥路变成十字路)。类似地,利用语义标注图合成人脸时,给定语义标注的人脸图像,你可以选择组合人的五官,调整大小肤色,添加胡子等。

图:左下角是人脸的语义标注图,pix2pixHD合成各种不同五官、接近真实的人脸图像。

视频介绍:

论文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

作者:Ting-Chun Wang¹, Ming-Yu Liu¹, Jun-Yan Zhu², Andrew Tao¹, Jan Kautz¹, Bryan Catanzaro¹

¹NVIDIA Corporation  ²UC Berkeley

摘要

本文提出了一种利用条件生成对抗网络(conditional GANs)来合成高分辨率、照片级真实的图像的新方法。条件GAN已经实现了各种各样的应用,但是结果往往是低分辨率的,而且也缺乏真实感。在这项工作中,我们的方法生成了2048x1024分辨率的视觉上非常棒的效果,利用新的对抗损失,以及新的多尺度生成器和判别器架构。此外,我们还将我们的框架扩展到具有两个附加特征的交互式可视化操作。首先,我们合并了对象实例分割信息,这些信息支持对象操作,例如删除/添加某个对象或更改对象类别。其次,我们提出了一种方法,可以在给定相同输入条件下生成不同的结果,允许用户交互式地编辑对象的外观。人类意见研究(human opinion study)表明,我们的方法显著优于现有的方法,既提高了图像的质量,也提高了图像合成和编辑的分辨率。

图1:我们提出了一个利用语义标注图(上图(a)的左下角)合成2048×1024分辨率图像的生成对抗框架。与以前的工作相比,我们的结果表现出更自然的纹理和细节。(b)我们可以在原始标签地图上改变标签来创建新的场景,例如用建筑物替换树木。(c)我们的框架还允许用户编辑场景中单个对象的外观,例如改变汽车的颜色或道路的纹理。请访问网站进行更多的对比和交互式编辑演示。

图2:生成器的网络架构。我们首先在较低分辨率的图像上训练一个残差网络G₁。 然后,将另一个残差网络G₂附加到G₁,然后两个网络在高分辨率图像上进行联合训练。具体来说,G₂中的残差块的输入是来自G₂的特征映射和来自G₁的最后一个特征映射的元素和。

图3:使用实例图(instance map):(a)一个典型的语义标签图。请注意,所有汽车都有相同的标签,这使得它们很难区分开来。(b)提取的实例边界图。有了这些信息,更容易区分不同的对象。

图4:没有实例映射(instance map)和带有实例映射的结果之间的比较。可以看出,当添加实例边界信息时,相邻车辆的边界更加清晰。

图5:除了用于生成图像的标签之外,还使用 instance-wise特征。

结果

表1:Cityscapes 数据集上不同方法得出的结果的语义分割得分。我们的结果大大优于其他方法,并且非常接近原始图像的准确率(即Oracle)。

图7:在Cityscapes数据集上的比较(语义标注图显示在(a)的左下角)。对于有VGG损失和没有VGG损失,我们的结果比其他两种方法更接近真实。可以放大图片查看更多细节。

图8:在NYU数据集上的比较。我们的方法比其他方法生成的图像更加逼真、色彩更丰富。

讨论和结论

本研究的结果表明,条件GAN(conditional GAN)能够合成高分辨率、照片级逼真的图像,而不需要任何手工损失或预训练的网络。我们已经观察到,引入perceptual loss可以稍微改善结果。我们的方法可以实现许多应用,并且可能对需要高分辨率结果,但是预训练的网络不可用的领域有潜在的用处,例如医学成像和生物学领域。

本研究还表明,可以扩展图像-图像的合成流程以产生不同的输出,并且在给定适当的训练输入 - 输出对(例如本例中的实例图)的情况下实现交互式图像处理。我们的模型从未被告知什么是“纹理”,但能学习将不同的对象风格化,这也可以推广到其他数据集(即,使用一个数据集中的纹理来合成另一个数据集中的图像)。我们相信这些贡献拓宽了图像合成的领域,并可以应用于许多其他相关的研究领域。

原文发布时间为:2017-12-3

本文作者:马文

原文链接:英伟达、UC伯克利联合研究:条件GAN高分辨率图像合成与语义编辑pix2pixHD(论文+代码)

时间: 2024-09-22 01:16:59

英伟达、UC伯克利联合研究:条件GAN高分辨率图像合成与语义编辑pix2pixHD(论文+代码)的相关文章

阿里云战略合作英伟达 建联合实验室拓展深度学习市场

1月20日,2016云栖大会上海峰会在上海科技馆召开.全球领先的云计算服务提供商阿里云和全球视觉计算的行业领导者NVIDIA(英伟达)签署战略合作协议,双方将共同推广阿里云高性能计算平台HPC,大力拓展深度学习市场,并建立联合实验室,进行高性能计算领域相关技术的联合攻关. 阿里云HPC于去年底正式对外商用,每个计算节点配备2颗专属NVIDIA Tesla K40 GPU和2颗CPU.用户可通过阿里云官网(www.aliyun.com/product/hpc)购买GPU服务器实例.这是中国首个云上

阿里云携英伟达 建实验室拓展深度学习

本文讲的是阿里云携英伟达 建实验室拓展深度学习1月20日,2016云栖大会上海峰会在上海科技馆召开.全球领先的云计算服务提供商阿里云和全球视觉计算的行业领导者NVIDIA(英伟达)签署战略合作协议,双方将共同推广阿里云高性能计算平台HPC,大力拓展深度学习市场,并建立联合实验室,进行高性能计算领域相关技术的联合攻关. 阿里云HPC于去年底正式对外商用,每个计算节点配备2颗专属NVIDIA Tesla K40 GPU和2颗CPU.用户可通过阿里云官网(www.aliyun.com/product/

【英伟达NIPS论文AI脑洞大开】用GAN让晴天下大雨,小猫变狮子,黑夜转白天

只"看"一次,把猫"想象"成狮子,冬日变为夏天 "在无监督学习中使用GAN并不是新鲜事,但我们取得了前所未有的成果,"英伟达在最新发表的一篇官博文章中表示.不仅如此,这项工作还能有效减少训练神经网络所需的标注数据数量. 这项成果指的是今年NIPS上英伟达的论文<无监督图像翻译网络>(Unsupervised Image-to-Image Translation Networks).在这篇论文中,研究人员展示了一款具有"想象力

英伟达发布“后排驾驶员”AI,能够学习阅读唇语

英伟达公司在今年的消费电子产品展上公布的联合驾驶员"后座司机"AI可谓一鸣惊人.事实上,大多数与会者都被其在"车"中出色的唇语理解能力所震撼. 根据CES展会上公布的内容,这款联合驾驶员AI助手能够执行四项功能:面部识别.头部追踪.视线追踪与唇语阅读.自动驾驶AI属于GPU助力DRIVE PX 2平台的组成部分,其采用多款传感器以及由英伟达处理器支持的多种神经网络以实现功能. 英伟达公司的一位发言人在采访邮件中确认称,这款唇语阅读组件基于由牛津大学.谷歌DeepMi

发力AI,英特尔欲借Nervana芯片挑战英伟达GPU

英特尔正在发力人工智能技术,试图在这一领域挑战领先者英伟达.近期收购的Nervana Systems将是英特尔开拓人工智能市场的先锋. 英特尔已公布了关于人工智能的计划,但至少有一块关键拼图尚未完成. 英特尔此前收购了Nervana Systems,并宣布将继续销售该公司的所有产品.这些产品面向高端应用,尤其是神经网络的训练.这一领域目前的领先者是英伟达.与此同时,英特尔收购Movidius的交易尚未完成,因此在计算机视觉和边缘网络方面还有很大的缺失需要填补.此外,英特尔还公布了多个人工智能软件

全球首个癌症计算解决方案启动,英伟达、IBM 加持的机器学习搞得定吗?

癌症自出现之日就是环绕在人们头顶上的乌云,如今,随着社会压力越来越大,癌症发病率也越来越高,而攻克癌症一直是医学界正在努力的方向. 今年一月,美国总统奥巴马宣布了"抗癌登月计划"的科研目标,旨在让抗癌研究的进展速度翻一番,在 5 年内达到原本可能需要 10 年才能取得的成果,项目总预算大约 10 亿美元. 近日,据国外媒体报道,美国启动了全球首个"癌症先进计算解决方案的联合设计"( Joint Design of Advanced Computing Solutio

【黄教主再放核弹】英伟达超级计算机SaturnV升级,有望杀入Top500榜单前五

2017年超算大会,最新Top500榜单公布,但这里要说的不是中国的强力表现--虽然还是让我们简单回顾一下,中国上榜的超级计算机系统数量超越了美国(202 vs 143),神威·太湖之光和天河二号第四次蝉联冠亚军--而是英伟达. 最新的Top500超级计算机榜单中,英伟达的DGX SaturnV 系统排名第36.此外,榜单上有34个系统使用了他家的GPU.不仅如此,在全球Top20最高效的超级计算机集群中,有14个使用了英伟达的硬件.如果这还不够,该公司现在宣布,DGX SaturnV集群升级,

不用写代码就能实现深度学习?手把手教你用英伟达 DIGITS 解决图像分类问题

锋网首发.   引言 2006年,机器学习界泰斗Hinton,在Science上发表了一篇使用深度神经网络进行维数约简的论文 ,自此,神经网络再次走进人们的视野,进而引发了一场深度学习革命.深度学习之所以如此受关注,是因为它在诸如图像分类.目标检测与识别.目标跟踪.语音识别.游戏(AlphaGo)等多个领域取得了相当优秀的成绩,掀起了又一波人工只能浪潮.深度学习技术逐渐成为机器学习领域的前沿技术,近年来得到了突飞猛进的发展,这得益于机器学习技术的进步以及计算设备性能的提升.英伟达公司研发的图形处

一文详解英伟达刚发布的 Tesla V100 究竟牛在哪?

众所周知,目前无论是语音识别,还是虚拟个人助理的训练:路线探测,还是自动驾驶系统的研发,在这些人工智能领域,数据科学家们正在面对越来越复杂的 AI 挑战.而为了更好地实现这些颇具未来感的强大功能,就必须在实践中引入一些指数级的更加复杂的深度学习模型. 另一方面,HPC(高性能计算)在现代科学研究中一直起着至关重要的作用.无论是预测天气,新药物的研究,或是探索未来能源,科研人员每天都需要利用大型计算系统对现实世界做各种各样的仿真和预测.而通过引入 AI 技术,HPC 就可以显著提升科研人员进行大数