CVPR 2021 | 无需风格图片的图像风格迁移

侯云钟 将门创投 昨天


图片





图片

CVPR 2021 文章专题

第·19·期


图片

本文从另外一个角度解读,澳洲国立大学郑良老师实验室 CVPR 2021新工作《Visualizing Adapted Knowledge in Domain Transfer》。

一般而言,我们需要同时利用两张图片完成图像的风格迁移(style transfer):一张图片指导内容(content);一张图片指导风格(style)。在本文中, 我们探寻如何在不利用风格图片的情况下,通过训练好的模型作为指导,将内容图片迁移至一种未曾见过的风格

图片

论文链接:
https://arxiv.org/pdf/2104.10602.pdf
代码链接:

https://github.com/hou-yz/DA_visualization

图片

我们首先展示一些示例结果,如下图,在只利用目标(target)图片的情况下,我们可以将其有效迁移至未曾见过的源(source)图片风格。

图片
基于模型的图像风格迁移。在没有利用源图片(c)作为图像风格指导的情况下,我们仅利用目标图片(a),即可将其迁移至源域风格(b)。

一、基于图片的图像风格迁移

不论是风格迁移(style transfer)还是图像变换(image translation)工作,想要在保持图片内容的条件下变换图像的风格,都需要同时利用两张图片:一张图片图片指示内容;一张图片图片指示风格。此外,它们还需要一个特定的评价网络图片,来推动图像风格的变换。在风格迁移中(如neural style transfer [1]),图片可能是ImageNet预训练VGG的特征分布;在图像变化中(如cyclegan [2]),图片可能是两个域分别对应的判别器网络(discriminator)。

图片neural style transfer [1] 利用内容图像、风格图像、和基于ImageNet预训练的VGG的评价网络
图片cyclegan [2] 利用内容图像数据集、风格图像数据集(两者互易)、和判别器形式的评价网络
对于传统的风格迁移,可以形式化的记为图片,其中图片 为生成图片图片图片分别代表风格图像和内容图像,图片代表某一特定评价网络。

二、基于模型的图像风格迁移

在本文中,不同于两张图片,我们利用训练好的两个模型,来指导图像的风格迁移。特别的,我们考虑域迁移(domain adaptation)的任务情景:给定源域(source domain)和目标域(target domain),以及训练好的适用于源域的网络图片和适用于目标域的网络图片,且默认这两个网络共享分类层图片(域迁移中常见设置)。

图片

域迁移:可以得到分别适用于源域和目标域的两个神经网络模型,以此推动图像风格迁移
基于这两个网络,我们探寻能否将目标域图像直接迁移至源域风格。我们可以进一步给出任务目标的形式化定义图片,其中图片x指导生成图片图片的内容。对比传统的图像风格迁移图片,基于模型的风格迁移存在以下区别:
  • 不能基于内容-风格图像对图片图片训练,而是凭借源域模型图片和目标域模型 图片指导图像风格差异;

  • 风格迁移的标准不依赖于特定的评价网络图片,而仍是依赖源域模型图片和目标域模型图片 。

三、Source-Free Image Translation 方法

面对基于模型的风格迁移目标图片,我们设计了一套方法,完成基于模型的图像风格迁移任务。特别的,我们只利用目标域图片图片作为内容指导(即作为图片),而完全避免在图像迁移的过程中利用源域图片图片。由此,我们的方法也得名source-free image translation(SFIT),即不依赖源域数据的图像风格迁移。
图片

基于模型的风格迁移:不依赖风格图像和评价网络;而是依赖源域模型、目标域模型

SFIT方法的流程设计如下。给定(目标域)内容图片图片 ,我们训练一个生成器 图片来将其迁移至(源域)风格,生成图片图片。面对原始的内容图片图片和生成的风格化图片图片,传统的基于图像的风格迁移和本文中提出的基于模型的风格迁移存在以下区别:
  • 基于图片的风格迁移(neural style transfer)约束生成图片图片内容上接近图片(content loss: 评价网络图片特征图之差),风格上接近图片(style loss: 评价网络图片特征图分布的区别)。
  • 基于模型的风格迁移(SFIT)约束这内容图片图片和生成的风格化图片图片在经过(预训练且固定的)目标域模型图片和源域模型图片后,能获得相似的输出。我们通过约束最终输出的相似和特征图的分布相似,完成对生成图片内容和风格上的约束。

四、损失函数设计

知识蒸馏(knowledge distillation):直接约束风格化前后图片在源域和目标域模型上输出相似,

图片
由于这两个模型描述相同的语义,相似输出保证内容(按照网络准确率的概率)不变。

关系保持(relationship preserving):归一化版本的style loss,约束两路特征图输出在特征分布(Gram矩阵,即特征图关于通道的自相关矩阵:抵消HW维度,剩余通道数D维度)上接近。

  • 传统的style loss约束两张图片在同一个评价网络图片上特征图分布相似;
  • relationship preserving loss约束两张图片分别经过源域模型图片和目标域模型 图片后,得到的特征图归一化分布相似。
由于两个模型适用场景不同,相似输出分布保证两张图片分别适应两种风格(原始图像及两个域对应模型固定不变,则生成图像需适应源域风格)。
图片

五、为何约束不同网络的

特征图分布可以迁移风格?

Demystifying neural style transfer [3] 一文证明,传统style loss可以以类似域迁移中Maximum Mean Discrepancy (MMD) loss的方式,通过不同图片在同一网络的Gram矩阵以及二阶统计量,迁移图像的风格。

由于我们假设,源域的网络图片和一个适用于目标域的网络图片共享分类层图片(域迁移中常见设置),我们可以认为这两个网络在通道维度上语义是相对对齐的(共享分类层,需要global average pooling之后的特征向量在通道上对齐,才能在两个不同的域上都获得较好的结果)。鉴于此,我们可以认为,图片图片这两个网络以一种松散的方式,保持着类似于同一网络的特性,即通道维度语义对齐。

但毕竟,两个网络肯定还是存在差别,通道之间的关系也不可能严格维持不变。由此,我们在relationship preserving loss中,使用归一化的Gram矩阵而非原始的Gram矩阵(如传统style loss)。如下图,归一化的Gram矩阵能提供更加均匀的约束,而且能免于对某些维度的过度自信(传统style loss存在过大loss值,在网络不严格一致的情况下,可能过于自信)。

图片

六、实验结果

图片

实验结果表明,仅依赖模型,也可以将目标域图像有效迁移至源域风格

图片

VisDA数据集上风格迁移更多结果。左为原始图片,右为风格化图片。

我们也同时对比了利用不同方式迁移图像风格的效果。如下图,直接对齐Batch Norm层中的统计量可以轻微迁移图像风格 (b);传统的style loss有效迁移风格,但存在边缘和前景的过度白化 ©;文章中提出从relationship preserving loss则是在保持前景的同时(更加锐利的边缘、和背景的区别更明显),有效迁移的图像风格。

图片

此外,我们还利用定量实验验证了风格迁移的结果是对源域和目标域模型知识差异的有效刻画,且生成的风格图片可进一步帮助微调域迁移模型。关于这方面的分析,请见论文原文,或从域迁移任务可解释新角度的分析文章。

Reference

[1]. Gatys, L. A., Ecker, A. S., & Bethge, M. (2016). Image style transfer using convolutional neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition(pp. 2414-2423).

[2]. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. InProceedings of the IEEE international conference on computer vision(pp. 2223-2232).
[3]. Li, Y., Wang, N., Liu, J., & Hou, X. (2017, August). Demystifying neural style transfer. InProceedings of the 26th International Joint Conference on Artificial Intelligence(pp. 2230-2236).
//

 作者介绍 

侯云钟,2018年获得清华大学电子工程系学士学位。2019年至今,在郑良老师和Stephen Gould老师指导下,在澳洲国立大学(Australian National University)攻读博士学位。目前,他已经在CVPR,ECCV上发表一作文章。研究兴趣包括计算机视觉深度学习

Illustration by Oleg Shcherba from Icons8

- The End -

CVPR 2021 论文解读 

// 1

 SensatUrban: 城市规模点云数据集

// 2

 上交和国科大提出DCL: 旋转目标检测新方法

// 3

 TPCN 点云就是这么美妙

// 4

 机器学习与传统算法融合的图相似度求解

// 5

 图森未来团队提出LiDAR R-CNN:一种快速、通用的二阶段3D检测

// 6

 动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%!

// 7

 VSPW: 首个多场景大规模视频语义分割数据集

// 8

 图森未来与中科院自动化所提出GMTracker:一种基于图匹配的多目标跟踪方法

// 9

 SpinNet: 学习用于3D点云配准的强泛化能力的特征描述子

// 10

 RegDA:针对无监督关键点检测的回归域自适应方法

// 11

 都柏林圣三一大学和字节新工作ACTION-Net:一种高效、即插即用的动作识别模块

// 12

 大连理工大学卢湖川团队提出TransT: Transformer Tracking

// 13

 DisAlign: 面向多种长尾视觉任务的统一框架

// 14

 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet

// 15

| RMNet:又快又好!基于局部特征记忆网络的视频物体分割

// 16

| 港大、牛津提出PAConv: 一种位置自适应卷积,点云分类、分割任务表现SOTA

// 17

 MotionRNN:针对复杂时空运动的通用视频预测模型

// 18

 RfD-Net: 从点云中重建三维物体实例


本周上新!扫码观看~

图片
图片
图片
关于我“
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
图片    
点击右上角,把文章分享到朋友圈