光影背景随心换,虚拟视频还能这样拍?上海科技大学提出人像视频重照明方法

以下文章来源于机器之心 ,作者Synced

机器之心
机器之心

专业的人工智能媒体和产业服务平台

设想你是一个视频创作者,借着绿幕拍了视频,后期换背景时却发现不自然,怎么办?
设想你是一个摄影师,好不容易捕捉到一个难能可贵的时机,却发现还需要补光,如何挽救?
上海科技大学团队提出了一种全新的解决方法——像视频重照明(Video Portrait Relighting)方法:使用者只需要在模型中输入单张图片(RGB)和一个含有高动态范围(HDR)信息的照明环境,就能实现更换背景、重打光的效果。模型输出的结果足够逼真,在光影变化时前后依旧连贯;模型运作的性能足够强劲,还能够在移动端实时生成结果。这篇论文目前已被 ICCV 2021 接收。

图片

论文链接:

https://arxiv.org/pdf/2104.00484v1.pdf

项目主页:

https://zhang-dragon.com/projects/nvpr/nvpr.html

图片
图片
图 1 模型更换背景的输出结果。可以看到,在背景光线变化时,前后的光线变化依旧连贯。
图片
图 2 模型更换光影后的输出结果
这个研究主要有以下亮点:
· 研究者提出了一种基于神经网络的新型实时人像视频重打光方法,使模型的输出在光影变化时足够连贯,效果显著优于现存的最佳模型;
· 研究者将人像结构信息与光影信息分离,通过自有的时序建模方法和光影采样策略,使得使用者可实时编辑光影;
· 研究者构建了动态的单帧单一光照的影像数据集(One Light at A Time,OLAT)单帧单一光照。这个数据集包含了 36 位实验参与者共计 603,288 张动态 OLAT 影像,可支持后续的人像与光照研究。
图片

一、动态、单一光照(OLAT)

新的数据集是怎么炼成的?

从监督学习的角度对单张图片应用重打光的难点是数据集的丰富程度,我们需要同一人像在大量不同光照下的对应数据,而实拍几乎是不可能的。
这个问题在 MARS 实验室的支持下得到了解决。我们实验室自主研发的穹顶光场(Light Field Stage)由包含 114 个 LED 光源和一台 1000 fps 的 4K 超高速摄像机组成。穹顶光场以多灯光与高速相机的配合,帮助研究者成功采集出动态单帧单一光照(OLAT)的影像数据,解决了人像重打光面临的数据瓶颈。
图片
图 3 穹顶光场(Light Field Stage) 采集数据、应用数据的过程。
为了实现高效率的数据采集与处理,我们也制定了一套数据采集流程、开发了一套数据处理工具链,并最终采集处理了 36 位实验参与者共 603,288 张影像数据,建立了第一个动态单帧单一光照(OLAT)的数据集。
图片
图 4 模型更换光影的工具使用过程
二、框架方法
人像结构信息与光影信息分离
这篇论文提出的框架以 U-Net 结构作为基础,可以看作是含有跳跃连接的编码器 - 解码器组合。编码器对输入人脸编码出光照信息 L 和结构信息 e ,解码器通过光照信息和结构信息生成对应的人脸。
图片
论文提出了针对人脸结构信息的自监督学习,让同一人脸在不同光照条件下编码出相同的结构信息e ,以便和人脸携带的光照信息 L 解耦。编码器同时对源图像和目标图像(在不同光照下的生成结果)编码出两个隐向量,并优化两个隐向量的距离。
图片
这篇论文提出的框架同时监督网络输出对于人脸的分割 P ,让网络学习人脸的语义结构,以期在未知的人脸上获得更好的表现。
图片
同时,这篇论文还使用对抗生成训练,使用辨别器 加强网络输出的细节。
图片
图片
时间连续性约束 ——动态单帧单一光照的诀窍
通过采集的时间连续的单帧单一光照(OLAT)数据,研究者可以计算出前后帧之间的的光流信息 t,t+1,以此在网络训练的过程中提供额外的时序信息。
这篇论文提出的框架在训练时将多个前后相邻的 OLAT 数据输入给网络,将输出的图像经光流变换后计算损失函数,同时在多次前向传播过程中进行优化。这样的方式使得网络可以让变化光照条件下的人脸序列,经过重打光后在时间上连贯。
图片
这篇论文提出的框架在应用的时候仅需要单帧作为输入,而不需要额外的时间信息,即可以获得具有时间连续性的输出。 
图片

光照分布采样

这篇论⽂提出的框架采⽤了 Beta 分布对光照数据集进⾏采样,将不同种类的光照组合,同时模拟光照的⼀致性递变和突变,增强了⽹络的泛化能⼒。选定特殊参数的 Beta 分布对源光照条件和目标光照条件进行插值,可以使插值集中分布在两种光照条件的附近。这对应了最后的实际应用场景,源光照条件附近的样本对应对了光照编辑,目标光照条件附近的样本对应了光照更换。
图片
这篇论⽂提出的采样分布提高了实际应用时的表现。
图片

三、效果比较

研究在动态光照环境下与多种 SOTA 重打光方法进行了比较,均达到了更稳定的视觉效果,并且在实拍场景中也同样奏效。
图片
图片
研究也以输入视频光照变化剧烈程度为变量,对不同的方法进行了定量和定性分析,论文中提出的新方法也达到了显著的稳定效果。
图片
图片
该研究还在 FFHQ 数据集(Flickr-Faces-HQ Dataset,一个广泛使用的数据集)对网络进行了测试,效果如下:
图片
四、后续工作
我们未来将着重提升该项目中网络对人像细节的表达,将结合穹顶光场采集的毛孔级动态人脸模型数据,进一步提升效果;重打光范围拓展为全身,以适应更广泛的应用场景。
针对以「补光」这一应用需求,也将以 Google Pixel 5 中 Portrait Light 功能为蓝本,开发了专门针对手机用户的实时补光网络,能够为肖像照进行不丢失细节的多色彩多光源补光,未来将与手机厂商合作以应用的形式集成入旗舰机型中。
图片

Illustrastion by Tatyana Krasutskayafrom Icons8

-The End-

AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。



图片

> 投稿请添加工作人员微信!

图片

扫码观看

本周上新!

图片
关于我“
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
将门创投
将门创投
将门是一家以技术创新为切入口的新型创投机构,由前微软创投在中国的创始团队于2015年底创立。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注技术领域包括机器智能物联网、自然人机交互企业计算
1293篇原创内容
公众号
图片    
点击右上角,把文章分享到朋友圈