进阶的PVT——更灵活鲁棒的视觉Transformer基准模型

原创让创新获得认可将门创投今天

收录于话题

#技术干货

44个

PVT(Pyramid Vision Transformer)作为 Transformer 应用于视觉领域的代表性模型之一，在诸多任务上取得了优异的结果。最近在PVT的基础上，研究人员为其添加了重叠片元嵌入编码、卷积前传网络和线性复杂度的注意力层等功能模块，实现了PVTv2模型，大幅提升了在图像分类、目标检测和分割等任务上的性能，为研究领域提供了功能更为强大、可用的基准模型。

一、持续演进的PVT模型

视觉 Transformer 领域最近的研究工作不断推动着主干网络的设计和进步，为像图像分类、目标检测、实例语义分割等下游任务提供更好的基础架构。从 Vision Transformer 首次验证纯 Transformer 架构可以在视觉任务上实现优异的性能开始，一系列优异的视觉Transformer模型不断涌现，Pyramid Vision Transformer(PVT) 模型甚至在某些方面可以超过基于 CNN 的模型，Swin Transformer、CoaT、LeViT、Twins 等模型的提出进一步提升了 Transformer 作为下游任务主干网络的性能。

PVTv1与ViT和CNNs系列的模型架构的对比

为了构建更为强大和实用的基础网络模型，研究人员在PVTv1的基础上主要进行了三个方面的改进，包括构建重叠片元嵌入表达、添加卷积前传网络模块以及线性复杂度的注意力层来提升模型性能，在图像分类、目标检测、实例分割和语义分割等任务上实现了更好的性能。

二、改进的金字塔

视觉Transformer (PVTv2)

PVTv1是首个基于金字塔结构的视觉 Transformer 架构，提出了包含4个层级的Transformer，使用纯粹的 Transformer 主干网络在多种视觉任务上都取得了优异的性能指标。但作为第一代视觉 Transformer 架构，处于探索先驱阶段的 PVTv1 与ViT 一样存在着一些局限性。

PVTv1系列的模型架构，其中图像片元彼此不重叠造成了局域信息不连续性。

首先，与 ViT 相同 PVTv1 将图像视为一系列非重叠的片元序列，这样对图像的非重叠切片与编码会在一定程度上损失图像中原有的连续性；其次，PVTv1 中的位置编码为固定尺寸，对于任意尺度的图像处理缺乏灵活性。当高分辨率的图像输入时，PVTv1 的计算复杂度就会飙升，大大降低了模型的性能。为了改善 PVTv1 中存在的问题，研究人员从三个方面对原有模型进行了改进。

重叠片元 (patch) 嵌入编码。在 PVTv2 中使用了重叠片元嵌入来对图像进行编码。上图左侧展示了重叠片元操作的示意图，图中每个片元的窗口尺寸被放大、与相邻窗口互相重叠一半，同时对特征图进行0填充操作。而后使用卷积对填充后特征图进操作实现嵌入编码。具体来讲，给定 hxwxc 的输入，应用步长为S、尺寸为2S-1的卷积，填充大小为S-1，使用c’个卷积核最终获得 h/S x w/S x C’的输出结果。

卷积前传。为了解决图像大小灵活性的问题，在新版的 PVT 中固定位置编码被移除，并引入了填充零的位置编码机制，上图右侧显示了在前传网络和全连接层间插入的3x3零填充逐深度卷积。

线性空间缩减注意力机制。为了进一步优化PVT的计算开销，线性空间注意力 (Spatial Reduction Attention, SRA) 机制被引入到新的模型中来。与原始的SRA不同，线性空间注意力机制具有线性的计算复杂度和内存开销，对于输入为hxwxc的特征图，与SRA相比线性SRA的复杂度大大降低：