NTIRE 介绍
CVPR(IEEE Conference on Computer Vision and Pattern Recognition)是世界顶级的计算机视觉会议(三大顶会之一,即IEEE国际计算机视觉与模式识别会议,另外两个是 ICCV 和 ECCV ),CVPR下 NTIRE (New Trends in Image Restoration and Enhancement Challenges)比赛,主要涉及 图像超分辨率、图像去噪、去模糊、去摩尔纹、重建、去雾 。
NTIRE2018
2018年的NTIRE在超分上有4个赛道。
Track1:Classic Bicubic ×8
对原始高清图像使用经典的 bicubic (双三次插值)降尺度8倍的方式生成LR图像,进行8倍放大重建。
Track2: Realistic Mild ×4 adverse conditions
对原始高清图像使用 未知的退化因子 下采样4倍生成LR图像,进行4倍放大重建。所有的训练集、验证集、测试集均采用相同的退化因子。
Track3:Realistic Difficult ×4 adverse conditions
与Track2类似,只是 退化因子更为复杂 。
Track4: Realistic Wild ×4 adverse conditions
与Track2和Track3类似,只是一张图像和另一张图像的 退化因子不同 ,有些图像的 退化程度 比另一些少些或多些。由于任务的复杂性增加,每个HR训练图像都会生成降级的LR图像。
数据集DIV2K :
参与者可以获取DIV2K数据集的LR和HR训练和验证图像对,包含800张训练图像,100张验证图像,100张测试图像。
评价指标 :
采用信噪比(PeakSignal-to-Noise Ratio, PSNR )和结构相似度( Structural Similarity index, SSIM )作为定量指标,计算HR结果和GT图像之间的关系,取每个测试集的平均值。
结果 :
Track1 | Track2 | Track3 | Track4 | |
---|---|---|---|---|
1 | 25.455/0.7088 (DBPN) | 23.631/0.6316 | 22.329/0.5721 | 23.080/0.6038 |
2 | 25.433/0.7067 | -/- | -/- | 23.374/0.6122 |
3 | 25.428/0.7055 | 23.579/0.6269 | 22.074/0.5590 | -/- |
PSNR/SSIM
大多数方法采用 RseNet 架构和 DenseNet 架构,一些团队采用 EDSR 架构(NTIRE2017的冠军方案)。
NTIRE2019
之前大量的SISR方法主要是在模拟数据集上进行评估,仅仅采用简单和均匀的退化方式,而真实场景中LR图像退化方式要复杂得多,因此这些算法很难推广到在真实的实际应用上。2019年的NTIRE在超分辨率上主要针对 现实场景下未知退化因子的单图像超分辨率 ,称为真实图像超分辨率( Real Image Super-Resolution)。NTIRE2019超分上仅有一个赛道。
Track:Real-world SR
在相同场景下,通过调整单反相机的焦距,在长焦距下获得高分辨率图像,在短焦距下获得对应的低分辨率图像。图像的训练集、验证集和测试集的所有图像的光学退化过程是相同的。 缩放因子和退化因子均是未知的 。
数据集RealSR :
参与者可获得100个在不同的室内和室外环境中获得的真实世界的低分辨率和高分辨率图像对。还执行了复杂的图像配准操作,以生成相同内容的HR和LR对。RealSR数据集中的每个图像的像素分辨率不小于1000×1000。这些图像是用高端单反相机拍摄的。
评价指标 :
PSNR和SSIM作为定量评价指标。
结果 :
大量的方法采用 RCAN 的框架结构和使用多尺度结构对图像特征进行上下采样。
冠军方案:SuperRior团队的UDSR网络,采用U型结构。PSNR:29.00,SSIM:0.84。
亚军方案:SuperSR团队的,改进的U-Net体系结构。PSNR:28.97,SSIM:0.84。
NTIRE2020
NTIRE2020在超分辨率上主要针对 真实场景中高、低分辨率图像对难以获得的问题 ,称为Real-World Image Super-Resolution(RW),目标是采样弱监督或无监督学习方法来实现SR。因此,对于训练,只提供一组源输入图像和一组未配对的高质量目标图像。NITRE2020超方上有两个赛道,均为放大4倍。
Track1: Image Processing Artifacts
源图像由参与者未知的退化操作生成,这种退化操作方法类似于在低端设备发现的图像信号处理方法引起的退化 。
Track2:Smartphone Images
任务是对 真实场景中低质量智能手机摄像头获取的图片 进行超分。
数据集 :
Track1:对Flickr2K数据集的2650张图像进行退化操作,且不进行任何下采样,作为训练图像的输入,训练图像的目标图像来自DIV2K数据集的800张高质量清晰图像。验证集和测试集取自DIV2K,验证图像和测试图像首先进行下采样然后进行退化操作医生成验证和测试的输入。
Track2:采用iPhone3获取的DPED数据集作为训练时的输入,训练图像的目标图像来自DIV2K数据集的800张高质量清晰图像。由于对应的真实超分图像不存在,因此将DPED裁剪出一部分作为验证集。
评价指标 :
对于两个赛道,目标是实现令人满意的感知结果。
Track1:PSNR,SSIM作为定量指标反馈,同时采样LPIPS距离(一种基于参考的图像质量度量方法,在深度特征空间中计算L2距离),sat官网但LPIPS只是当作感知质量的指示,而不是决定最终排名的度量。 最终的排名,通过计算MOS(Mean Opinion Score):对生成的图像与相对应的参考GT图像,进行6个评级的打分 。
Track2:由于真实的参考图像不存在,因此采用几种基于无参考的图像质量:NIQE、BRISQUE、PIQE、NRQM、PI,这五种指标用于评估图像锐度、噪声、伪影和整体的质量。因为Track2中无参考GT图像,因此无法用Track1的MOS进行计算,因此 采用MOR(Mean Opinion Rank)作为评价指标:计算每种方法的所属等级的平均值 。
结果 :
Track1:
Team | PSNR ↑ uparrow ↑ | SSIM ↓ downarrow ↓ | LPIPS ↓ downarrow ↓ | MOS ↓ downarrow ↓ |
---|---|---|---|---|
Impressionism | 24.67 ( 16 ) _{(16)} ( 1 6) | 0.683 ( 13 ) _{(13)} ( 1 3 ) | 0.23 2 ( 1 ) 0.232_{(1)} 0 . 2 3 2 (1 ) | 2.195 ( 1 ) _{(1)} ( 1 ) |
Samsung-SLSI-MSL | 25.59 ( 12 ) _{(12)} ( 1 2) | 0.727 ( 9 ) _{(9)} ( 9 ) | 0.25 2 ( 2 ) 0.252_{(2)} 0 . 2 5 2 (2 ) | 2.425 ( 2 ) _{(2)} ( 2 ) |
BOE-IOT-AIBD | 26.71 ( 4 ) _{(4)} ( 4 ) | 0.761 ( 4 ) _{(4)} ( 4 ) | 0.28 0 ( 4 ) 0.280_{(4)} 0 . 2 8 0 (4 ) | 2.495 ( 3 ) _{(3)} ( 3 ) |
Track2:
Team | NIQE ↓ downarrow↓ | BRISOUE ↓ downarrow↓ | PIQE ↓ downarrow↓ | NRQM ↑ uparrow↑ | PI ↓ downarrow↓ | IQA-Rank ↓ downarrow↓ | MOR ↓ downarrow↓ |
---|---|---|---|---|---|---|---|
Impressionism | 5.00 ( 1 ) _{(1)} (1 ) | 24.4 ( 1 ) _{(1)} (1 ) | 17.6 ( 2 ) _{(2)} (2 ) | 6.50 ( 1 ) _{(1)} ( 1 ) | 4.25 ( 1 ) _{(1)} (1 ) | 3.958 | 4.54 ( 1 ) _{(1)} (1 ) |
ATITA-Noah-A | 5.63 ( 4 ) _{(4)} (4 ) | 33.8 ( 5 ) _{(5)} (5 ) | 29.7 ( 8 ) _{(8)} (8 ) | 4.23 ( 8 ) _{(8)} ( 8 ) | 5.70 ( 6 ) _{(6)} (6 ) | 7.720 | 3.04 ( 2 ) _{(2)} (2 ) |
ITS425 | 8.95 ( 18 ) _{(18)} ( 1 8 ) | 52.5 ( 18 ) _{(18)} ( 1 8 ) | 88.6 ( 18 ) _{(18)} ( 1 8 ) | 3.08 ( 18 ) _{(18)} ( 1 8 ) | 7.94 ( 18 ) _{(18)} ( 1 8 ) | 14.984 | 3.30 ( 3 ) _{(3)} (3 ) |
大量的方法采用 DSGAN 网络架构(AIM 2019 Challenge的冠军)。
NTIRE 综述论文
NTIRE2018: NTIRE 2018 Challenge on Single Image Super-Resolution: Methods and Results
NTIRE2019: NTIRE 2019 Challenge on Real Image Super-Resolution: Methods and Results
NTIRE2020: NTIRE 2020 Challenge on Real-World Image Super-Resolution: Methods and Results
SR经典赛道(bicubic下采样)结果
降质方式:双三次下采样(BI),模糊下采样(BD)。评价准则:YCbCr空间Y通道的PSNR、SSIM
Quantitative results with BI degradation model. Best and second best results are highlighted and underlined
Method | Scale | Set5 | Set14 | BSD100 | Urban | Manga109 |
---|---|---|---|---|---|---|
EDSR | x2 | 38.11/.9602 | 33.92/.9195 | 32.32/.9013 | 32.93/.9351 | 39.10/.9773 |
RCAN | x2 | 38.27 /.9614 | 34.14 / .9216 | 32.41 / .9027 | 33.34 / .9384 | 39.44 / .9786 |
SAN | x2 | 38.31/.9620 | 34.07/.9213 | 34.42/.9028 | 33.10/.9370 | 39.32 / .9792 |
RFANet | x2 | 38.26/ .9615 | 34.16/.9220 | 32.41 /.9026 | 33.33 / .9389 | 39.44 /.9783 |
EDSR | x3 | 34.65/.9280 | 30.52/.8462 | 29.25/.8093 | 28.80/.8653 | 34.17/.9476 |
RCAN | x3 | 34.74/ .9299 | 30.65 / .8482 | 29.32/.8111 | 29.09 / .8702 | 34.44 / .9499 |
SAN | x3 | 34.75/ .9300 | 30.59/.8476 | 29.33 / .8112 | 28.93/.8671 | 34.30/.9496 |
RFANet | x3 | 34.79/.9300 | 30.67/.8487 | 29.34/.8115 | 29.15/.8720 | 34.59/.9506 |
EDSR | x4 | 32.46/.8968 | 28.80/.7876 | 27.71/.7420 | 26.64/.8033 | 31.02/.9148 |
RCAN | x4 | 32.63/.9002 | 28.87/ .7889 | 27.77/ .7436 | 26.82 / .8087 | 31.22 / .9173 |
SAN | x4 | 32.64 / .9003 | 28.92 /.7888 | 27.78 / .7346 | 26.79/.8068 | 31.18/.9169 |
RFANet | x4 | 32.66/.9004 | 28.88 / .7894 | 27.79/.7442 | 26.92/.8112 | 31.41/.9187 |
EDSR:NTIRE2017超分冠军方案,使用增强的ResNet, paper , code
RCAN:ECCV2018超分冠军方案,EDSR的改进,加入通道注意力, paper , code
SAN:CVPR2019,RCAN的改进,使用二阶注意力, paper , code
RFANet:CVPR2020, paper
总结
纵观2018到2020超分辨率的研究发展,我们可以看到,对于模拟数据集,EDSR网络简单明了简直赏心悦目,堆叠大量的残差块结构(共32个)以及加深网络的宽度,这种“大力出奇迹”的方法赢得了NTIRE2017的冠军。来到2018,ECCV冠军方案RCAN在EDSR上改进残差块结构(在每个块末尾添加通道注意力),然后堆叠更多的残差块(共200个),也是这种“粗暴简单”的方法基本把PSNR/SSIM提高到了顶点。从这我们可以看出,每个优秀的方案,基本离不开残差连接和注意力机制。
2019和2020,超分辨率进入真实超分方向,网络基本骨架几乎没有改变,大多数都是采用之前经典的网络架构,而把重心放在了数据的处理上,这也是对应真实场景中低分辨率图像的复杂退化,和对应高分辨率标签图像的难以获取。
即问题放在了在少样本和非真正配准标签或者无标签情况下,如何进行数据增强,如何获取LR和HR图像对,如何更有效的利用数据等等。因此,我们可以看到NTIRE2020冠军方案的噪声注入,2019和2020第二名方案关注于如何获取LR和HR图像对。学习方式也从监督学习到弱监督学习,慢慢步入无监督学习。
个人看来,这也是接下来人工智能的方向,即如何更精细和有效地从样本中学习,而不是“笨拙”的从大量样本中“穷举”解决方案,无监督学习、迁移学习和元学习也会越来越受到关注。
迁移学习(Transfer Learning):将其他任务已经训练好的模型作为自己任务模型的起点,代替从头开始训练自己的模型。例如你自己构建一个目标识别方案,你就可以采用VGG19的预训练模型,直接导入前几层的模型进行特征提取,因为一般网络前面几层学到的模式都差不多,这样就不需要自己从头开始学习这些模式,节省了大量时间和精力。
元学习(Meta Learning):也叫“学会学习”(Learning to learn),它是要“学会如何学习”,即利用以往的知识经验来指导新任务的学习,具有学会学习的能力。当前的深度学习大部分情况下只能从头开始训练。使用Finetune来学习新任务,效果往往不好,而Meta Learning 就是研究如何让神经玩两个很好的利用以往的知识,使得能根据新任务的调整自己。
注:迁移学习和元学习其实差不多,区别可以参考这些回答: 元学习(Meta Learning)与迁移学习(Transfer Learning)的区别联系是什么?
另外在NTIRE2020中,我们可以看到大多数方案使用生成对抗网络GAN,GAN虽然在细节方面会产生伪影,但具有很好的视觉效果,这说明GAN适合于真实超分。推而及之,得益于GAN的强大生成作用,GAN适合于少样本学习,在视觉方面能够生成很好的视觉效果。