图形学+深度学习:来看下神经渲染完成的神仙操作!

让创新获得认可 将门创投 前天
From: EUROGRAPHICS 2020 编译:T.R

现代计算机图形学在合成逼真场景图像和场景操控合成方面取得了杰出成果,然而在自动生成形状、材质、光照和其他场景方面还面临着一系列挑战。

计算机视觉机器学习为这一领域提供了图像合成与编辑的全新解决方案:基于深度生成模型和图形学领域的光学物理知识,神经渲染(Neural rendering )已成为计算机图形学领域最为迅猛的发展方向。在多种计算理论、方法和技术的融合下,这个新领域出现了非常多的有趣应用:包括图像内容编辑、场景合成、视角变化、人物编辑等等。可以预见,神经渲染未来将会在电影工业、虚拟/增强现实和智慧城市等领域中发挥越来越重要的作用

来自马普研究所、斯坦福、慕尼黑理工、Facebook、Adobe和谷歌的研究人员对这一领域的发展进行了详尽的综述,系统性地梳理神经渲染在各个领域的发展。下面我们将为大家详细呈现机器学习计算机视觉与图像学领域的碰撞融合。

语义图像合成与操控



语义图像合成与操控主要利用交互式的编辑工具来对图像中的场景和物体进行语义上地控制和修饰。与传统方式不同,数据驱动的图形学系统可以利用多张图像区域来合成新的图像,并基于大规模的图像数据集来抽取典型的语义特征。这种方法可以使用户指定场景的结构、修改场景内容,同时还能有效处理合成过程中产生的不连续性和人工痕迹。

在语义图像合成方面,目前主要基于条件生成目标,将用户指定的语义图映射为逼真的图像。用户输入还包括了颜色、草图、纹理等形式。从pix2pix等方法开始,研究人员们就开始对场景和图像的生成进行深入的探索,并不断提高生成图像的分辨率与细节,同时从静态图像向动态视频的语义操控扩展。

下图显示了目前较为先进的GauGAN网络生成的结果:其不仅可以生成较好的视觉效果,还能控制生成结果的风格和语义结构


在语义图像操控方面,该技术需要用户提供待操作的图像,并利用生成模型满足用户对图像的操作需求。与前述的合成不同,操作面临两个额外挑战:其一,对图像的操作需要对输入进行精确的重建,但这对于目前最为先进的GAN来说也是挑战;其二,操作图像后合成的结果也许会与输入的图像不兼容、不协调。

于是为解决这些问题,研究人员们提出了非条件GAN来作为神经图像先验,同时通过生成结果与原始图像的融合来得到输出结果。此外,包括自动编码器等多种内部结果的使用和后处理的有效应用也使得图像编辑取得了良好的效果。

下图显示了GANPaint中如何给图像增加、删除、改变目标:只需用笔刷进行涂抹,生成模型就会满足用户提出的需求,同时保留原图像中的统计信息。


在提升渲染图像的真实性方面,研究人员从大规模的真实数据中抽取相似的内容来提升渲染图像的结果,或者基于条件生成模型,将低质量的渲染结果转换为高质量的逼真图像。此外,包括特征匹配,阴影处理、材质和表面法向量渲染等方面的工作也将对全局光照、遮挡、景深和连续性进行处理。

下图显示了基于生成模型的高质量渲染结果:仅仅改变视频中说话人的嘴形,就渲染出了近乎真实讲话的视觉效果。


目标和场景的新视角合成



新视角合成是指在特定场景下,利用已有的不同视角图像,在新相机视角条件下合成图像。其最主要挑战来自于场景的三维结构观测比较稀疏,需要在仅有的几个观测视角下合成出新视角的图像,同时还需要补全新视角下被遮挡或者没有在观测中被包含的部分。

在经典计算机视觉中,人们主要基于多视角立体视觉来实现场景几何重建,用反射变换来构建基于图像的渲染效果。但在稀疏观测或者欠观测的情况下,这种方法得到的结果会具有孔洞,或是留下较为明显的人工凿斧痕迹。在神经渲染中,研究人员使用少量的已有视角观测结果来学习出场景,再利用可差分的渲染器生成新视角下的图像;同时还利用几何、外观与场景特性作为先验来提升场景的表达和渲染;此外还通过体素、纹理、点云等多种形式来为网络提供更多的图像和几何信息。

下图显示了神经渲染从大规模网络图像中重建3D模型的结果。模型被渲染为了深度、颜色和语义标签等缓存中,渲染器将这些缓存转换为了多种不同的场景结果。


下图展示了从新视角渲染招财猫的图像结果。由图可见,在仅仅六个稀疏采样视角下,系统就实现了多个新视角的目标渲染。


神经渲染在学习场景中自然的三维结果和透视几何关系方面也发挥了重要作用,下图显示了几个具有代表性的新视角合成工作:



自由视点视频合成


自由视点视频(Free Viewpoint Videos,也称为 Volumetric Performance Capture)依赖于多相机条件下对于3D形状和纹理的捕捉。但先前的方法得到的结果不够真实,因为高频细节的缺失或纹理的失真使任意场景中精确的重光照困难重重。此外,不精确的几何估计使得纹理图像变得模糊;最后,由于真实场景中构建时间连续的三维模型十分困难,对于头发和透明物质的重建还有很多问题需要解决。

不过好在研究人员通过结合传统的重光照方法和高速高精度的深度传感器,最终克服了上述困难。下图展示了最新的Relightable系统:其捕捉了人体自由视点,重建出几何模型和反射率图,并最终实现了能在任意场景中进行合成的视觉效果。


此外,神经渲染技术还可用于演员表演的LookinGood系统。通过实时地重渲染,该技术大幅提升了图像采集系统的性能:


为了从多视角视频数据中实现自动化的创造、渲染,模拟高质量的模拟目标模型,研究人员还提出了Neural Volumes系统:先把多视角的视频序列输入编码器,将其解码为半透明的RGB体和对应的透明权重;然后再基于相机穿过这一体积的视线来对模型进行渲染,累积出颜色和透明度,完成最终的输出工作。


学习重新打光的神经渲染


在新的光照下重新渲染逼真的图像被称为relighting,其对于视觉应用和虚拟现实增强现实具有重要作用。目前工业界使用的方法是基于图像的重光照,这需要采集不同光照条件下场景的图像,并基于这些来合成出新光照下的结果。这种方法被广泛用于好莱坞视觉特效中,但需要耗费大量的财力、物力、人力、以及定制化的设备,不便于野外使用。

这时,神经渲染技术就派上了大用途。在该技术的驱动下,研究者利用渲染或真实采集的反射场数据对网络进行训练,让工作人员在应用少数图像的情况下,还能给场景重新打光。

此种方法的实现原理很好理解:通过神经渲染技术,研究者能让系统从少数几张图像中学习出场景的光照方向和重光照函数。在此基础上,人们也可利用多视角来学习场景几何构成以实现更好的重光照。

事实上,该技术不仅可以应用于光照不足的场景,即使在光照条件尚可的环境下,其对于反射场的学习也可达到提升环境表现力的渲染效果。比如像下图这样:



人体重建渲染


这一部分的研究包括人脸和肢体的重现。针对人脸来说其主要包括生成新的表情、位姿或者语言嘴形等等。而针对人体来说主要包括行为克隆,交互控制等等,来操作目标视频中人物的姿态、行为和动作等等。

其中一个有趣的应用是修改视频中人说话内容的同时,将人物的口型也进行相应的修改。下图显示了Text-based Editing of Talking-head Video,视频中说话人的文字被改变,对应的嘴形也被改变并渲染出了逼真的结果。


类似的应用还包括通过Deferred neural rendering,实现3D情况下的新视角合成与场景编辑:


而在人体重渲染方面,该技术可以控制目标对象的位置、渲染和身体位姿:既可以从源视频中抽取动作信息控制目标姿态,也可利用人体关节模型来控制目标视频中主体的行为。


虽然神经渲染技术在各个方面已经取得了巨大的突破,成为了图形学领域和计算机视觉机器学习领域交融共生的新兴方向,但其目前还面临着泛化性、规模化、可编辑性以及多模态数据场景表达能力的限制,还有很大的发展空间。相信随着技术的进步,会有更多通用、易用、高效稳定的方法被提出,让神经渲染达到与现代图形学一样的适用范围的同时,还能激发其深度学习的强大能力。

如果想要了解更多详细信息、理论方法和参考文献,请参看论文:
https://arxiv.org/pdf/2004.03805.pdf


来扫我呀


关于我门


将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能物联网、自然人机交互企业计算在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com


点击“❀在看”,让更多朋友们看到吧~