AI抠图神器!新型高分辨抠图方法HDMatt融合邻域信息呈现清晰细节

让创新获得认可 将门创投 今天

关注并星标

从此不迷路

Jiangmen

From:Google  编译:T.R


抠图是图像和视频处理中的重要技术,但随着拍照像素的提高,超高分辨率图像的主体抠图变得越来越困难,特别是对于头发、毛发、植物的枝叶等细节的处理让后期师累红了眼。如何对高分辨率图像进行有效、准确地抠图一直是图像处理软件、各类app应用的重点研究方向,也是图像相关工作人员的迫切需求。

来自UIUCAdobe俄勒冈大学的研究人员利用基于图元的剪切缝合方法高分辨率图像进行有效处理,并提出了交叉片元上下文信息抽取模块获取不同片元间的长程依赖关系更加准确高效地对高分辨率图像中的主体进行抠取

抠图 (Matting) 技术的前世今生

深度学习风靡世界之前,抠图一般使用基于采样基于传播两种原理进行处理。针对未知的像素,采样方法一般会从前景和背景像素中采样,进行适当的融合来预测未知像素的alpha值。还有的方法基于图像片元自适应采样,可以捕捉长程全局信息。这一方法在RGBXY特征空间中采集与当前像素接近的邻域像素。但与这些采样方法不同的是,HDMatt使用深度学习模型捕捉了不同图像片元间的长程依赖,同时在特征空间中而不是RGBXY空间中进行采样,使得HDMatt可以在语义层面上捕捉长程依赖信息

基于传播的方法主要包括了基于泊松方程的方法、基于随机游走的交互式抠图和闭合式抠图,这些方法主要基于局域平滑,构建损失函数并通过解线性方程组寻找到全局优化的alpha掩膜。还有的方法基于非局域的信息,在特征空间中采集与当前像素匹配的像素,并将此像素看做上下文信息来预测alpha值。HDMatt也借鉴了这种思想,过采样上下文片元来捕捉长程上下文信息

随着深度学习的发展,出现了像DIM、AlphaGAN、ContextNet、IndexNet和GCAMatting等高性能的抠图方法,但这些方法在处理高分辨图像时还面临着一系列问题。相较而言,本文提出的方法可以有效处理超高分辨率图像,并添加了片元间的交叉依赖性来提升算法的抠图表现

高分辨率抠图方法HDMatt

为了实现针对超高分辨率图像的抠图,本文采用的方式是将图像裁剪成一系列小片元,针对片元处理口又合并成完整的结果。但针对单一片元进行处理的话会造成信息的丢失和预测结果的不连续性,为了解决这一问题,本文提出了一种基于片层交叉上下文模块来获取不同片元间的长程依赖信息,使得整体的预测结果更为完整和连续。

在处理流程中,首先要将图像随机剪切成320x320,480x480,640x640大小的图像,而后统一调整为320x320大小。在推理时则需要将图像裁剪成相互重叠的图像元以便更好的进行融合。为了获取不同图像元之间的依赖关系,下面我们将详细讲解图元交叉上下文模块(Cross-Patch Context Module, CPC)的结构和原理。

图元交叉上下文模块的主要目的是
相关的图元信息抽取出来用于提升抠图的精度和连续性,同时使用了Trimap来作为引导对不同区域的信息进行更好的传播。为了选出与当前图元最为相关的K个片元,研究人员使用了编码器将当前图元和所有的图元进行编码,随后将前景和背景区域设为零来获取未知区域的编码结果。最后利用未知区域编码与其他图元编码的点乘和来得到相关性得分,得分越好的片元与当前片元的相关性就越高,在信息传输中就具有越重要的作用。(具体细节可以参考论文3.2.1部分)。

基于这样的原理筛选出top-K个片元作为辅助信息一起输入网络中,在权衡了性能和计算速度后研究人员选择了K=3来构建模型。

本文提出的模型如下图所示,
图像元和对应的Trimap作为输入,而后通过CPC模块进行处理融合,最终由解码器输出掩膜结果。其中当前图像和相关的上下文片元都共享同一个编码器E,编码后得到一系列特征,并与Trimap一同输出CPC进行处理融合。

为了更好的利用相关片元间的信息,研究人员提出了一种基于Trimap引导的非局域操作(Trimap-Guided Non-Local, TGNL)。一般来说,针对未知区域与前景更相似的像素更有可能是前景、同样与背景更相似的像素则更有可能属于背景。Trimap中其实涵盖了这些信息。基于这种考虑,研究人员使用Trimap来对相关图元的信息传播进行引导。这一操作将比较当前图像中未知区域与相关图像中的前景、背景以及未知区域,并将这三种不同关系的相关性特征进行拼接作为解码器的输入来预测最终的掩膜结果。

片元交叉上下文模块中,基于Trimap引导的非局域操作,右图是TGNL操作对于相关性特征进行融合和具体过程。

实验结果

研究中使用了ResNet-34作为基础网络,同时利用了Adobe Image Matting(AIM)数据集进行训练、在AIM test上进行了测试结果表面本文提出的方法在精度和细节的效果上都得到了很大的提升。

下表中可以看到,HDMatt在SAD、MSE、Grad和Conn等指标上都有了大幅度的提升。

针对真实世界的照片来说,下图中模特的掩膜也抠取的十分到位,纤毫毕现,图像中的发丝都不放过。


下图中研究人员还将模型中的注意力进行了可视化展示,可以看到图中的绿色为当前片元,红色则是相关图元。图中展示了相关相关图元与当前图元的相关性结果,这种方法可以选择与当前图元较远的图元,这是传统卷积方法固定感受野不能做到的。同时注意力图的相关性可视化表面,这种方法可以有效选择相关图元中的相似像素来捕捉更多信息

如果想要了解更多详细细节,请参看论文:
arxiv.org/abs/2009.06613v1



想看更多内容?点击下方卡片即可直接🔎搜索啦~
将门创投推荐搜索
ECCV
ICRA
Talk
将门好声音

本周上新!


关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能物联网、自然人机交互企业计算在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给“门”: 

bp@thejiangmen.com


    

点击右上角,把文章分享到朋友圈


扫二维码|关注我们

让创新获得认可!

微信号:thejiangmen


点击“❀在看”,让更多朋友们看到吧~