ECCV 2020 | 如何恢复降采样后的高清图片?可逆图像缩放搞定

郑书新 将门创投 3天前


关注并星标

从此不迷路

Jiangmen

作者:微软亚洲研究院研究员 郑书新


ECCV 2020系列文章专题

第·12·期


本文将分享来自微软亚洲研究院研究员郑书新等人在ECCV的工作。如何恢复降采样后的图片是图像处理中一个非常有挑战的问题,一直没有被很好的解决。本文使用可逆神经网络对解决这一对逆任务进行了初步的尝试,提供对Lost Information进行建模的视角,相信可以对类似任务有一定的参考价值。

更多ECCV精彩内容,后台回复“ECCV”即可查看!


论文地址:

https://arxiv.org/pdf/2005.05650.pdf

开源代码:

  https://github.com/pkuxmq/Invertible-Image-Rescaling(即将开源)


一、研究背景


不知道同学们平日里上网有没有遇到过这种情况:自己精心拍摄的高清照片/视频,想发给朋友or分享到朋友圈/微博/抖音/知乎,结果上传文件之后,直接被无良服务器压成超低分辨率渣画质。甚至有些图片/表情包在经过多次传播之后,画质已经糊到惨不忍睹。


其实,图片的降采样 (缩放) 可以说是对数字图像最常见的操作了,它的用处多种多样:压缩图片尺寸、节省服务器存储or带宽、适配不同分辨率的屏幕等等。像现在服务器资源这么贵,大家发微博/知乎也不交钱,顶多给各位多塞点广告,所以高清图片和视频自然是能压则压,能分得清张一山和夏雨就可以了。


如何恢复降采样后的图片是图像处理中一个非常有挑战的问题,一直没有被很好的解决。我们这篇最新工作,就巧妙地尝试从本质上解决这个问题,论文已被ECCV2020收录为Oral论文。


二、方法


降采样后图片的原图求解是一个典型的病态 (ill-posed) 问题:



现在有一张图片有4个像素,值分别为1,3,5,7。假设对原图进行双线性插值降采样(Bilinear Interpolation),得到像素值为4的低分辨率图片。那么,如何从这一个像素还原出原图呢?


这个问题太难了,有太多种4个像素取值的组合都可以得到同样一张低分辨率图片。如果是4x降采样,则会有16个像素被采样成一个点。想要精确地从一个像素还原出原图?你看看那些像素上的"?"眼熟不。。。



为什么这是一个病态问题?这是因为在降采样的过程中存在着信息的丢失 (information loss) , 以至于无法很好地还原回原图。而前人的做法一般是使用一个超分辨率的卷积神经网络,尝试从大量的数据中强行学习低分辨率到高分辨率的映射关系;或者使用encoder网络对原图进行降采样,同时使用decoder网络还原图片,二者进行联合训练 (jointly training) 达到更好的效果。但以上这些方法都没有从本质上解决病态问题,效果也不尽如人意。因此我们需要更聪明的方法来解决病态问题。


基于DNN的Encoder-Decoder结构对图像进行缩放和还原


刚才提到了病态问题的产生是由于信息的丢失,那么具体是什么信息被丢失了呢?

“High-frequency content will get lost during sample rate conversion.”
--Nyquist-Shannon Sampling Theorem


正是由于高频信息的丢失导致了我们无法很好的还原高清原图,那么如果我们“保留”这些高频信息呢?



为了可以显式地保留高频信息,我们将降采样的过程替换为小波变换:由小波变换我们可以得到原图的一个低频分量和三个不同方向的高频分量。这里的低频分量与双线性插值降采样得到的低分辨率结果是一样的,而高频分量则是在降采样过程中被丢失的信息。


当我们选择保留全部信息时,我们可以使用小波变换的逆变换 (即反函数,如果  ,那么  ),很轻松地将原图恢复出来。同理,对于使用DNN进行降采样的图片,我们如果保留了全部信息,那么也可以使用DNN的反函数将原图恢复回来。



对于深度学习模型这样一种复杂的非线性函数,它的反函数是什么呢?这里我们要用到可逆神经网络 (Invertible NN, INN) 模型。对可逆神经网络模型不熟悉的同学,推荐阅读Lilian Weng的博客:Flow-based Generative Model. 我们采用了最简单的Normalizing Flow的形式。这里需要注意,flow-based模型是严格可逆的。从另一个角度来思考这个问题,降采样和升采样本来就是一对逆任务,是否便应当使用可逆神经网络?



了可逆神经网络模型,我们可以把之前的Encoder-Decoder网络换成INN和它的反函数,这样,如果我们可以保留全部信息,就能完美地恢复出原始高清图片。然而,我们显然无法在存储、传输低分辨率图片时还附带这些本应被丢失的信息 (低分辨率图片的维度+丢失信息的维度=原始图片的维度),而丢弃这些信息又让我们无法使用INN来恢复出原图。所以,折腾了半天又把这条路堵死了?

别急,我们再来回顾一下前面的简单例子:



我们令  表示原始高清图片,  和  分别表示低频与高频分量。小波变换  将  转换为  。本该被丢弃,然而却无法被丢弃(丢弃后无法通过  恢复),其原因在于  的分布是condition on  ,即  是与样本相关的 (case-specific),因此分布  是难以获知的。那我们的insight就是:只要捕捉到丢失信息 (Lost Information) 的分布,就能得到关于它最多的信息。因此如果能令  与  相互独立,并且使所有的 (over dataset) 通过某个变换服从一个预定的简单分布 (如高斯分布),那么  就可以被安全地丢弃,需要它时再采样就好了。


此时,轮到我们的INN出场了。我们引入变量  ,令  。  是一个INN,负责把  转换为  (这步有定理保证[1])。此使  的分布已经与  无关了,即case-agnoistic。同时,INN还可以生成符合我们要求的  (如视觉效果更好的/便于压缩的)。



对于case-agnoistic的  ,我们可以放心地将其丢弃;而当需要恢复原图时,我们可以在高斯分布中进行采样来得到  。这里需要注意,整个过程并不是完全没有信息丢失,这是因为我们使用了一个分布 (高斯分布) 中的一次随机采样来代替符合该分布中的一个特定样本点。但是由于我们的INN已经学习到如何将符合高斯分布的点 (结合  ) 恢复为case-specific的,因此相对于前人完全忽视ill-posed问题的做法,可以从本质上缓解求解ill-posed问题带来的困难,效果上的提升也是非常显著:



除了性能的大幅提升,更重要的是,得益于建模方法尝试直接解决任务的本质问题,模型所需参数量只需前人方法的1/10~1/30。下面是效果的可视化,请注意绿色框中对原图的还原程度。



更多的细节可以参考论文,包括具体的训练方法、不同采样的  如何影响图片还原、对于Out of Distribution的  模型又会有怎样的效果等等。


三、总结


最后总结一下:其实Image Rescaling任务是一个很有挑战、同时在实际场景中应用广泛且商业价值巨大的任务。本文使用可逆神经网络解决这一对逆任务进行了初步的尝试,沿着这条思路仍有很多值得发掘的点。同时,信息丢失 (Information Loss) 所导致的ill-posed问题在现实中也大量存在,本文提供的对Lost Information进行建模的视角,相信可以对类似任务有一定的参考价值。


参考资料:

Nonlinear independent component analysis: Existence and uniqueness results. 
https://www.sciencedirect.com/science/article/abs/pii/S0893608098001403




ECCV专题回顾

ECCV 2020独家攻略 

// 1


云端参会攻略之Oral篇,前排占位、强势围观

// 2

精彩教程大揭秘,云端参会也easy

// 3

Workshop第一弹: 视觉研讨会, 最新研究成果一网打尽!

// 4

Workshop第二弹强势来袭!最新CV应用实践成果全介绍

// 5

生物图像研究新挑战?手语与CV交叉发展?Workshop第三弹为你揭秘!

// 6

ECCV Workshop第四弹收官之作, 史上最全研讨会攻略看这篇就够了!



ECCV2020论文精选 

// 1


AI遇见三维时装: 来会会现今最大的三维服装数据集

// 2

GRNet: 用于稠密点云补全的网格化残差网络

// 3

中科大&微软提出挑图神器: GIQA,一键挑出高质量图像

// 4

基于对抗路径采样的反事实视觉语言导航

// 5

多视角图像的差别和多尺度信息如何利用?两篇论文为你解答

// 6

hide and seek, 看不见的骨架点轻松找到

// 7

基于生成器的低比特无数据量化(GDFQ)方法, 简单有效消除数据依赖

// 8

清华提出基于循环关联的自监督行人再识别, 无标签ReID仅需两个摄像头!

// 9

港中大提出Sep-Stereo:通过视觉信息引导声源分离,辅助立体声重构

// 10

中科院计算所、图森未来联合提出Dynamic R-CNN, 通过动态训练实现高质量的目标检测



想看更多内容?点击下方卡片即可直接🔎搜索啦~
将门创投推荐搜索
ECCV
ICRA
Talk
将门好声音

扫码观看!

本周上新!


来扫我呀


关于我“


将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能物联网、自然人机交互企业计算在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给“门”: 

bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈





扫二维码|关注我们


让创新获得认可!

微信号:thejiangmen


点击“❀在看”,让更多朋友们看到吧~