Image-to-Image Translation with Conditional Adversarial Networks
https://phillipi.github.io/pix2pix/
https://arxiv.org/pdf/1611.07004.pdf
https://github.com/phillipi/pix2pix
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
摘要:我们研究条件对抗网络,作为图像到图像翻译问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射,而且还学习损失函数来训练该映射(即更通用性的判别网络)。这使得可以将相同的通用方法应用于传统上需要非常不同的损失公式的问题。我们证明该方法可有效地从标签图合成照片,从边缘图重建对象以及为图像着色等任务。而且,自从与本文相关的pix2pix软件发布以来,数百名Twitter用户已经使用我们的系统发布了自己的艺术实验。作为一个社区,我们不再需要手工设计映射功能,并且这项工作表明我们无需手工设计损失函数就可以取得合理的结果。
1 引言
图像处理、计算机图形学和计算机视觉中的许多问题可被视为将输入图像“转换”为相应的输出图像。正如可以用英语或法语表达概念一样,可以将场景渲染为RGB图像、渐变场、边缘图、语义标签图等。类似于自动语言翻译,我们把该问题定义为图像到图像的自动转换,即在给定足够的训练数据的情况下,将场景的一种可能表示转换为另一种的表示(参见图1)。传统上,尽管事实是处理的相同的任务:根据像素预测像素,但每个任务都是由单独的专用网络(例如[14、23、18、8、10、50、30、36、16、55、58]),本文的目标是为所有这些问题开发一个通用框架。
社区已经朝这个方向迈出了重要的一步,卷积神经网络(CNN)成为了各种图像预测问题背后的常见主力军。 CNN学会了最小化损失函数-一个对结果质量进行评分的目标-尽管学习过程是自动的,但仍然需要大量的人工来设计有效的损失。换句话说,我们仍然必须告诉CNN我们希望将什么做最小化。但是,就像迈达斯国王一样,我们必须小心自己想要的东西!如果我们采取一种简单的方法,并要求CNN最小化预测像素和基准真实像素之间的欧几里得距离,它将倾向于产生模糊的结果[40,58]。这是因为通过对所有可能的输出求平均来最小化欧几里得距离,这会导致模糊。提出迫使CNN做我们真正想要的事情的损失函数(例如,输出清晰逼真的图像)是一个悬而未决的问题,通常需要专家知识。
如果我们可以只指定一个高层目标,例如“使输出与真实图像无法区分”,然后自动学习适合于实现该目标的损失函数,那将是非常可取的。幸运的是,这正是最近提出的生成对抗网络(GAN)所做的工作[22,12,41,49,59]。 GAN学会了一种损失,试图对输出图像是真实的还是伪造的进行分类,同时训练生成模型以最大程度地减少这种损失。模糊图像看起来是假的,因此不能容忍。由于GAN会学习适应数据的损失,因此它们可以应用于传统上需要非常不同种类的损失功能的大量任务。
在本文中,我们探索了条件化的GAN。就像GAN学习数据的生成模型一样,条件化的GAN(cGAN)学习条件生成模型[22]。这使cGAN适用于图像到图像的转换任务,在此我们以输入图像为条件并生成相应的输出图像。
在过去的两年中,人们对GAN进行了深入的研究,而我们在本文中探索的许多技术以前均已提出。尽管如此,早期的论文集中在特定的应用上,并且尚不清楚图像条件GAN作为图像到图像转换的通用解决方案如何有效。我们的主要贡献是证明有条件的GAN在各种问题上都能产生合理的结果。我们的第二个贡献是提出一个足以取得良好结果的简单框架,并分析许多重要架构选择的影响。可以在https://github.com/phillipi/pix2pix上找到代码。
2 相关研究
图像建模的结构性损失:图像到图像的转换问题通常用像素分类或回归表示(例如[36、55、25、32、58])。这些公式将输出空间视为“非结构化”,因为在给定输入图像的情况下,每个输出像素均视所有其他像素为条件。相反,有条件的GAN会学习结构性损失。结构性损失会考虑输出的联合配置。大量文献已经考虑了这种损失,其方法包括条件随机字段[9],SSIM度量[53],特征匹配[13],非参数损失[34],卷积伪先验[54],基于匹配协方差统计的损失和损失[27]。条件化GAN的不同之处在于可以了解损失,并且从理论上讲,可以考虑输出和目标之间任何可能的不同结构。
条件化GAN:我们不是第一个在条件框架中应用GAN的人。先前和同步进行的工作已经将GAN置于离散标签[38、21、12],文本[43]以及图像上。图像条件模型解决了从法线图[52]进行图像预测,未来帧预测[37],产品照片生成[56]和稀疏注释的生成图像的问题[28、45](参见[44]自回归解决相同的问题)。其他几篇论文也使用GAN进行图像到图像的映射,但是仅基于无条件得到的GAN,配合其他条件(例如L2回归)来强制输出以达到条件化(斯伦贝谢张团峰采用的就是这种方法)。这些论文在修复[40],未来状态预测[60],由用户约束[61],样式转换[35]和超分辨率[33]指导的图像处理方面取得了令人印象深刻的结果。每种方法都是为特定应用量身定制的。我们的框架的不同之处在于,没有什么是特定于应用程序的。这使我们的设置比其他大多数设置都要简单。
我们的方法在生成器和鉴别器的几种架构选择上也不同于先前的工作。与过去的工作不同,对于我们的生成器,我们使用基于“ U-Net”的体系结构[47],对于我们的鉴别器,我们使用卷积的“ PatchGAN”分类器,该分类器仅在图像补丁的规模上对结构进行惩罚。先前在[35]中提出了类似的PatchGAN体系结构,目的是捕获本地样式统计信息。在这里,我们证明了这种方法对更广泛的问题有效,并且我们研究了更改补丁大小的影响。
3.方法
GAN是生成模型,用于学习从随机噪声矢量z到输出图像y,G的映射:G→z [22]。相反,条件GAN会从观察到的图像x和随机噪声矢量z到y,G映射:{x,z}→y。经过对抗训练的判别器D训练发生器G产生无法与“真实”图像区分开的输出,该判别器D经过训练可以在检测发生器的“假货”时做得尽可能好。此培训过程如图2所示。
我们的目标函数是:
没有z,网络仍然可以学习从x到y的映射,但是会产生确定性的输出,因此除了三角函数以外,其他任何分布都无法匹配。过去的条件GAN都已经意识到了这一点,并提供了高斯噪声z作为生成器的输入(除x之外)(例如[52])。在最初的实验中,我们没有发现这种策略有效–生成器只是学会了忽略噪声–这与Mathieu等人的观点一致 [37]。取而代之的是,对于最终模型,我们仅以降落(dropout)的形式提供噪声,并在训练和测试时将其应用于发生器的多个层。尽管有噪声,但我们在网络输出中仅观察到较小的随机性。设计可产生高度随机输出的条件GAN,从而捕获它们所模型化的条件分布的全部熵,是当前工作遗留的一个重要问题。
3.2 网络结构
我们采用了文献[44]中提出的生成器和判别器网络结构。生成器和判别器都采用了“卷积-批正态化-非线性”(convolution-BatchNorm-ReLu)[26]的网络模块。该网络结构的细节可以通过在线的补充材料中查到,这里仅讨论其中的关键点。
3.2.1带跳跃的生成器(U-Net)
图像到图像转换问题的一个定义(关键)特征是它们将高分辨率的输入网格映射到高分辨率的输出网格。 另外,对于我们考虑的问题,输入和输出的表面外观不同,但是两者都是相同基础结构的绘制。 因此,输入中的结构与输出中的结构大致对齐。 我们围绕这些考虑因素设计生成器网络架构。
针对该领域中的问题的许多先前解决方案[40、52、27、60、56]已经使用了编码器-解码器网络[24]。 在这样的网络中,输入要经过一系列层,这些层逐渐地降低采样率,直到达到瓶颈层为止,在这一点上,过程是相反的。 这样的网络要求所有信息流都经过包括瓶颈在内的所有层。 对于许多图像翻译问题,在输入和输出之间共享大量的底层信息,因此希望将这些信息直接穿梭网络。 例如,在图像彩色化的情况下,输入和输出共享突出边缘的位置。
为了给生成器提供一种绕过瓶颈的方法,以获取诸如此类的信息,我们添加了跳过连接,以遵循“ U-Net”的一般形状[47]。 具体来说,我们在第i层和第n层n-i之间添加跳过连接,其中n是总层数。 每个跳过连接仅将第i层的所有通道与第n – i层的通道连接在一起。
U-Net网络结构
3.2.2马尔可夫判别器(PatchGAN)
众所周知,L2损失–和L1 –参见图3 –在图像生成问题上产生模糊的结果[31]。 尽管这些损失不能促进高频脆性,但是在许多情况下它们还是准确地捕获了低频信息。 对于这种情况下的问题,我们不需要全新的框架即可在低频下增强正确性。 L1已经可以了。
这促使将GAN鉴别器限制为仅对高频结构建模,这取决于L1项来强制实现低频正确性(公式4)。 为了对高频进行建模,将我们的注意力集中在局部图像补丁中的结构上就足够了。 因此,我们设计了一个鉴别器架构(我们称之为PatchGAN),该架构只会对补丁规模造成不利影响。 该鉴别器尝试对图像中的每个N×N色块是真实的还是假的进行分类。 我们对该图像进行卷积运算,对所有响应求平均以提供D的最终输出。
在第4.4节中,我们证明N可以比图像的整个尺寸小得多,并且仍然可以产生高质量的结果。 这是有利的,因为较小的PatchGAN具有更少的参数,运行更快,可以适用于更大尺寸的图像。
这样的鉴别器有效地将图像建模为马尔可夫随机场,并假设相隔大于补丁直径的像素之间具有独立性。 此连接先前在[35]中进行过探索,也是纹理[15,19]和样式[14,23,20,34]模型中的常见假设。 因此,我们的PatchGAN可以作为纹理/样式损失的一种形式来理解。
3.3 优化和推理
为了优化我们的网络,我们遵循[22]中的标准方法:在D的一个梯度下降步骤与G的一个步骤之间交替。我们使用minibatch SGD并应用Adam求解器[29]。 。
在推断时,我们以与训练阶段完全相同的方式运行生成器网络。 这与通常的策略不同,在于我们在测试时应用丢弃层,并且我们使用测试批次的统计数据而不是训练批次的汇总统计数据来应用批次归一化[26]。 当批量大小设置为1时,这种批量标准化的方法被称为“实例规范化”,并已被证明对图像生成任务有效[51]。 在我们的实验中,我们根据实验使用1到10之间的批量大小。
4 实验
为了探索该条件化gan的通用性,我们在很多任务和数据集上测试了该方法,包括图像任务,比如照片生成,以及视觉任务,比如语义分割。
•语义标签:照片,在Cityscapes数据集上训练[11]。
•建筑标签→照片,在CMP立面上进行了培训[42]。
•卫星-地图的照片,接受过从Google Maps抓取的数据的培训。
•灰度→彩色照片,在[48]上训练。
•边缘→照片,使用来自[61]和[57]的数据进行训练; 使用HED边缘检测器[55]生成的二进制边缘加上后处理。
•草图→照片:在[17]中的人为绘制的草图上测试边缘→照片模型。
•白天→黑夜照片,受训于[30]。
在线补充材料中提供了有关这些数据集的每个培训的详细信息。 在所有情况下,输入和输出均为1-3通道图像。 定性结果如图7、8、9、10和11所示,在线材料(https://phillipi.github.io/pix2pix/)中还包含其他结果和失败案例。
4.1 评估指标评
估合成图像的质量是一个开放且困难的问题[49]。 传统指标(例如,每像素均方误差)无法评估结果的联合统计信息,因此无法衡量结构化损失旨在捕获的结构。 为了更全面地评估结果的视觉质量,我们采用了两种策略。 第一,我们先用Amazon Mechanical Turk (AMT)开发的真假感知机,对于诸如着色和照片生成之类的图形问题,对于人类观察者而言,合理性通常是最终目标。 因此,我们使用这种方法测试地图生成,卫星照片生成和图像着色。
其次,我们测量合成的城市景观是否足够现实,以至于现成的识别系统可以识别其中的物体。 该度量类似于[49]中的“初始得分”,[52]中的对象检测评估以及[58]和[39]中的“语义可解释性”度量。
AMT感知研究:对于我们的AMT实验,我们遵循[58]中的协议:向Turker进行了一系列试验,将“真实”图像与我们算法生成的“伪”图像进行对比。 在每次试验中,每张图像出现1秒钟,之后图像消失,并且给Turkers无限制的时间来回答哪个是假的。 每次练习的前10张图像都是练习,Turkers得到了反馈。 没有对主要实验的40个试验提供反馈。 每个会话一次仅测试一种算法,并且不允许Turkers完成一个以上的会话。 约有50位Turker评估了每种算法。 所有图像均以256×256分辨率呈现。 与[58]不同,我们没有包括警戒性试验。 对于我们的着色实验,真实图像和伪图像是从相同的灰度输入生成的。 对于地图照片,不是从相同的输入生成真实的图像和虚假的图像,从而使任务更加困难并避免了落地级别的结果。
FCN分数:虽然已知对生成模型的定量评估具有挑战性,但最近的著作[49、52、58、39]尝试使用预训练的语义分类器将生成的刺激的可辨别性作为伪度量进行测量。 直觉是,如果生成的图像是真实的,则在真实图像上训练的分类器也将能够正确地对合成图像进行分类。 为此,我们采用流行的FCN-8s [36]架构进行语义分割,并将其训练在城市景观数据集上。 然后,我们根据分类准确度对合成照片的标签进行分类,以对这些照片进行分类。
4.2 目标函数分析
公式4中目标函数的哪些组成部分重要呢? 我们进行了独立性的影响程度研究,隔离L1项,分析GAN项的影响,并使用条件化鉴别器(cGAN,等式1)与使用无条件鉴别器(GAN,等式2)作为输入进行比较。
图3显示了这些变化对两个标签→照片问题的定性影响。 仅L1会导致合理但模糊的结果。 单独使用cGAN(在等式4中将λ设置为0)可获得更清晰的结果,但在某些应用中会引入视觉效果。 将两个项加在一起(λ= 100)可减少这些伪像。
我们使用城市景观标签→照片任务(表1)上的FCN分数对这些观测值进行量化:基于GAN的生成结果得分更高,表明合成的图像包含更多可识别的结构。 我们还测试了从鉴别器(标记为GAN)中消除条件的影响。 在这种情况下,损失函数不会使输入和输出之间的不匹配成为问题, 它仅关注照片看起来的真实性。这种变体导致非常差的性能。 检查结果表明,不管输入照片如何,生成器都会崩溃以产生几乎完全相同的输出。 显然,在这种情况下,损失衡量输入和输出之间匹配的质量非常重要,实际上,cGAN的形式要比GAN好得多。 但是请注意,添加L1项还鼓励输出尊重输入,因为L1损失会损害正确匹配输入的地面真实输出和可能不会合成的输出大小之间的距离。 相应地,L1 + GAN在创建尊重输入标签图的逼真的渲染时也很有效。 将所有形式的L1 + cGAN组合起来,形式相似。
彩色条件:GAN的显着效果是它们产生清晰的图像,即使在输入标签图中不存在空间结构,也会使空间结构产生幻觉。 可能有人会想到cGAN在光谱维度上对“锐化”具有类似的作用-即使图像更加色彩丰富。 就像L1在不确定要精确定位边缘的位置时会激励模糊一样,在不确定像素应采用几种可能的颜色值中的哪一个时,也会激励平均的浅灰色。 特别地,通过选择条件概率密度函数的中位数对可能颜色的最小化L1。另一方面,原则上可以意识到对抗损失是灰色输出是不现实的,并且会鼓励年龄匹配真实的颜色分布[22]。 在图6中,我们调查了我们的cGAN是否确实在Cityscapes数据集上实现了这种效果。 这些图显示了Lab颜色空间中输出颜色值上的边际分布。 地面真实分布以虚线显示。 显然,L1导致比实际情况更窄的分布,从而证实了L1鼓励使用平均的浅灰色的假设。 另一方面,使用cGAN可使输出分布更接近基本情况。
4.3 生成器体系结构分析
U-Net体系结构允许低级信息在网络上快速捷径传递。 这会导致更好的结果吗? 图4将U-Net与编码器-编码器在城市景观生成任务上进行了比较。只需通过切断U-Net中的跳过连接即可创建编码器/解码器。 在我们的实验中,编解码器无法学习生成逼真的图像。 U-Net的优势似乎并不是特定于条件GAN的:当L1损失训练了U-Net和编码器/解码器时,U-Net再次获得了优异的结果(图4)。
4.4 从PixelGAN到PatchGans到ImageGAN
我们测试了改变鉴别器接受域的Patch大小N的效果,从1×1的“ PixelGAN”到完整的286×286的“ ImageGAN” 。图5显示了定量分析结果,表2量化了使用FCN得分的效果。 请注意,除非另有说明,否则本文其他地方的所有实验均使用70×70 PatchGAN,对于本节而言,所有实验均使用L1 + cGAN损失。
PixelGAN对空间清晰度没有影响,但是会增加结果的色彩(在图6中进行了量化)。 例如,当训练网络具有L1损耗时,图5中的总线被涂成灰色,而由于PixelGAN损耗而变为红色。 颜色直方图匹配是图像处理中的常见问题[46],PixelGANs可能是一个有前途的轻量级解决方案。
使用16×16 PatchGAN足以提升清晰的输出,并获得良好的FCN得分,但同时也会导致叠瓦效应。70×70 PatchGAN减轻了这些负担,并获得了相似的分数。 扩展到完整的286×286 ImageGAN似乎并不能改善结果的视觉质量,实际上FCN得分实际上要低得多(表2)。 这可能是因为ImageGAN比70×70 PatchGAN具有更多的参数和更大的深度,并且可能难以训练。
全卷积转换:PatchGAN的一个优点是可以将固定大小的色标鉴别器应用于任意大的图像。 我们还可以将生成器卷积应用到比经过训练的生成器更大的图像上。 我们在地图航空照片任务上对此进行了测试。 在256×256图像上训练生成器后,我们在512×512图像上对其进行测试。 图7中的结果证明了这种方法的有效性。
4.5 感知验证
我们在地图→航空照片和灰度→彩色的任务上验证结果的感知真实性。 表3给出了我们的AMT实验获得的地图照片的结果。通过我们的方法生成的航拍照片在18.9%的试验中欺骗了参与者,大大高于L1基线,这会产生模糊的结果,并且几乎从未欺骗过参与者。 相比之下,在照片→地图方向上,我们的方法仅欺骗了6.1%的试验参与者,这与L1基线的性能(基于自举测试)没有显着差异。 这可能是因为较小的结构损失在具有刚性几何形状的地图中比在航拍照片中更为明显,而航拍照片则更为混乱。
我们在ImageNet 数据集[48]上训练了色彩,并在[58,32]引入的测试分割上进行了测试。 我们的方法由于L1 + cGAN缺失,使22.5%的试验蒙骗了参与者(表4)。 我们还测试了[58]的结果以及使用L2损失的方法的变体(有关详细信息,请参见[58])。 条件GAN的得分与[58]的L2变体相似(通过自举测试,差异不明显),但没有达到[58]的完整方法,该方法使参与者参加了我们实验中27.8%的试验。 我们注意到,他们的方法经过专门设计,可以很好地实现着色。
4.6 语义分割
条件GAN对于输出非常详细或摄影的问题似乎很有效,这在图像处理和图形任务中很常见。 视觉问题(例如语义分割)又如何呢?为了对此进行测试,我们在城市景观照片→标签上训练了cGAN(有或没有L1损失)。 图11显示了定性结果,并且在表5中报告了定量分类的准确性。有趣的是,经过训练的无L1损失的cGAN能够以合理的准确度解决此问题。 据我们所知,这是GAN首次成功生成“标签”的例子,这些标签几乎是离散的,而不是具有连续价值变化的“图像” 。 尽管cGAN取得了一些成功,但它们远不是解决此问题的最佳方法:如表5所示,仅使用L1回归比使用cGAN可获得更好的分数。我们认为,对于视觉问题,目标(即预测输出) 接近地面真相)可能不如图形任务那么模糊,而像L1这样的重建损失就足够了。
4.7 社区驱动的研究
自从论文和我们的pix2pix代码库首次发布以来,Twitter社区,包括计算机视觉和图形从业人员以及艺术家,已成功地将我们的框架应用于各种新颖的图像到图像中。 翻译任务,远远超出了原文的范围。 图10仅显示了#pix2pix标签的一些示例,例如草稿图→素描,“照着我做”姿势翻译,深度-街景,背景剔除,色标生成,草图-口袋妖怪动画,以及非常流行的边界到花猫。
5.结论
本文的结果表明,条件gan是许多图像到图像翻译任务的有前途的方法,尤其是那些涉及高度结构化图形输出的任务。 这些网络学习到了适合手头任务和数据的损失,这使得它们适用于多种设置。