MVS开始"变形"了！基于Transformer的多视角三维重建算法参数减量质更优!

原创让创新获得认可将门创投昨天

从多视角图像中学习出3D目标的表达一直是三维视觉的核心问题，随着深度学习的不断发展近年来基于深度卷积神经网络的模型在多视角三维重建问题中表现出了非常强大的能力。但这些方法大多基于相互独立的视图特征抽取和融合过程，忽略了不同视角间的相关性。

为了有效探索不同视角间的相关性，来自不列颠哥伦比亚大学和中科大的研究人员们借鉴了基于自注意力机制的Transformer模型，将多视角三维重建问题重新定义为序列到序列的预测问题，通过统一的Transformer模型将特征抽取和融合集成在完整的架构中，使得多个无序输入视角间相关性得以被充分利用。

实验表明这一方法可以大幅度减少模型参数，并在多个指标上超越了先前基于卷积的多视角三维重建模型架构。

论文链接：
https://arxiv.org/pdf/2103.12957.pdf

一、多视角三维重建问题

通过不同视角下对目标的观测图像，理论上可以重建出目标的三维信息，但传统方法需要精确的标定相机或抽取不同视角下的相对位姿，使得算法不够稳定、计算量过大、实现较为复杂。深度学习特别是卷积神经网络强大的特征抽取能力为多视角三维重建提供了新的可能。

为了从多个视角的观测结果中学习出目标的3D表达，绝大多数基于CNN的架构都采样了分治法，即先通过编码器提取出不同视角下的特征表达，而后通过融合过程将不同视角下的特征进行整合重建出目标的三维形貌。尽管两个过程紧密相关，但其设计思想却是独立的没有考虑不同视角下观测结果的相关性。虽然最近有研究利用RNN探索了不同视角下的关系，但庞大的计算量使得效率低下，输入排序敏感性使得它在处理无序的视角时候十分困难。此外，基于CNN的方法还无法有效处理模型缩放问题，当模型大小超过特定尺度时其精度会出现饱和，这显示出了单纯通过大量独立的CNN特征难以学习出互补的知识。

为了解决这些问题，研究人员在Transformer的启发下提出了一种称为“3D 体积Transformer(VoIT)”的模型架构，探索了自注意力机制在多视角3D目标重建中的应用潜力。研究人员将多视角三维重建问题重新定义为了序列到序列的预测问题，并将逐视角特征抽取和视角融合整合到统一的模型框架中。源于自然语言处理领域的Transformer模型天然可以处理任意数量输入间的复杂语义关系，十分适合探索视角到视角间的相关性。Transformer对于多视角重建问题成为了一个自然且十分具有吸引力的探索方向。

二、3D Volume Transformer

这一新的架构主要包含了两个部分:2D视角的transformer编码器和3D体积的transformer解码器。

其中2D部分的编码器主要负责从抽取2D视角下的特征，并通过探索2D视角间的关系对不同视角下的特征进行融合。而3D部分的解码器则通过对编码器的特征进行融合与解码，并为每个空间位置的查询token生成3D概率体素输出。解码器中的自注意力机制将主要学习每个输出体素栅格和输入视角间的2D视角-3D体积相关性；同时体积自注意力层则会通过学习不同空间位置的相关性来得到3D体积-3D体积间的相关性。2D-2D，2D-3D，3D-3D的相关性可以进行通过编码器和解码器中的多注意力层进行联合探索。

下图展示了本文提出模型的主要框架结构。

图中的左半部分是整个模型的主体架构，右半部分展示了本文提出用于抑制模型表达收敛的 divergence enhanced Transformer模块

提出的模型是一个典型的Transformer架构，其输出是多视角下的嵌入表达，查询则是3D空间的嵌入表达。

在编码器部分，每一个视角的图像首先通过预训练的CNNs模型抽取获得一系列嵌入表示，而后被送入多头注意力机制MH-DEAtt中进行处理，随后进行归一化和前向传播(feed-forward network,FFN)最终得到了编码后的多视角特征表达。

下面的公式对编码过程进行了比较简洁的描述：

值得一提的是，在使用原始Transformer时候，特征会随着层数的增加而逐渐收敛，这使得模型会失去表达能力，使得模型无法有效探索不同视角间的相关性。为此研究人员特别提出了一种减缓收敛的机制，通过增大不同视角的embedding差异来实现。这一机制通过在输入的特征空间中引入跳接并衔接不同视角的特征来实现。

下图中左下角的支路展示了这一过程。

而针对解码器来说需要重建目标的三维形貌，那么将一系列3D体积位置编码为查询序列，并添加了对应的位置编码，其主要的流程和编码器类似，通过将体积embedding输入多头体积注意力层进行编码，而后通过归一化再于视角编码共同输出到体积视角编码，随后归一化前向传播得到最后解码结果，并通过线性映射还原为对应的3D体积，而后按照对应位置排布得到最终的重建结果。

下面的公式简单描述了这一过程，详细解读可以参看论文细节。

细节架构可以看到这一解码器主要探索了3D-3D以及2D-3D间的相关性。

为了对比不同实现方式的差异，研究人员分别实现了三种不同的VoIT，其中利用VGG16抽取特征并利用原始Transformer编码的结果VoIT，利用更为先进的ResNet50作为特征抽取的VoIT+，以及通过视角嵌入学习收敛抑制提升的EVoIT模型。下表展示了这些模型与先前模型的参数量比较，可以看到最先进的EVoIT只有传统方法不到30%的参数量。