关注并星标
从此不迷路
Jiangmen
From:Google 编译:T.R
抠图是图像和视频处理中的重要技术,但随着拍照像素的提高,超高分辨率图像的主体抠图变得越来越困难,特别是对于头发、毛发、植物的枝叶等细节的处理让后期师累红了眼。如何对高分辨率图像进行有效、准确地抠图一直是图像处理软件、各类app应用的重点研究方向,也是图像相关工作人员的迫切需求。
在深度学习风靡世界之前,抠图一般使用基于采样和基于传播两种原理进行处理。针对未知的像素,采样方法一般会从前景和背景像素中采样,进行适当的融合来预测未知像素的alpha值。还有的方法基于图像片元自适应采样,可以捕捉长程全局信息。这一方法在RGBXY特征空间中采集与当前像素接近的邻域像素。但与这些采样方法不同的是,HDMatt使用深度学习模型捕捉了不同图像片元间的长程依赖,同时在特征空间中而不是RGBXY空间中进行采样,使得HDMatt可以在语义层面上捕捉长程依赖信息。
基于传播的方法主要包括了基于泊松方程的方法、基于随机游走的交互式抠图和闭合式抠图,这些方法主要基于局域平滑,构建损失函数并通过解线性方程组寻找到全局优化的alpha掩膜。还有的方法基于非局域的信息,在特征空间中采集与当前像素匹配的像素,并将此像素看做上下文信息来预测alpha值。HDMatt也借鉴了这种思想,通过采样上下文片元来捕捉长程上下文信息。
随着深度学习的发展,出现了像DIM、AlphaGAN、ContextNet、IndexNet和GCAMatting等高性能的抠图方法,但这些方法在处理高分辨图像时还面临着一系列问题。相较而言,本文提出的方法可以有效处理超高分辨率图像,并添加了片元间的交叉依赖性来提升算法的抠图表现。
基于这样的原理筛选出top-K个片元作为辅助信息一起输入网络中,在权衡了性能和计算速度后研究人员选择了K=3来构建模型。
本文提出的模型如下图所示,图像元和对应的Trimap作为输入,而后通过CPC模块进行处理融合,最终由解码器输出掩膜结果。其中当前图像和相关的上下文片元都共享同一个编码器E,编码后得到一系列特征,并与Trimap一同输出CPC进行处理融合。
片元交叉上下文模块中,基于Trimap引导的非局域操作,右图是TGNL操作对于相关性特征进行融合和具体过程。
研究中使用了ResNet-34作为基础网络,同时利用了Adobe Image Matting(AIM)数据集进行训练、在AIM test上进行了测试结果表面本文提出的方法在精度和细节的效果上都得到了很大的提升。
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
扫二维码|关注我们
让创新获得认可!
微信号:thejiangmen
点击“❀在看”,让更多朋友们看到吧~