OW-DETR：谷歌等单位提出面向开放世界目标检测的视觉Transformer

原创 seven_ 将门创投 2021-12-28 08:22

收录于话题

开放世界目标检测（OWOD，Open-world object detection） 是一个极具挑战性的计算机视觉话题，其任务是训练一个目标检测器，同时检测图片中已知类别和未知类别的目标。此外，还需要赋予检测器增量学习的能力，随着训练代数的深入，模型可识别的目标类别也在增加，这就要求检测器能够将未知目标与背景分离，同时生成高质量的候选框（candidate proposals）。与标准目标检测的任务设置相比，OWOD的任务设置难度较大，为此，Inception-AI、谷歌等单位提出了一种基于端到端Transformer开放世界对象检测框架OW-DETR。

本文提出的OW-DETR主要由三个模块构成，包括注意力驱动的伪标签生成（attention-driven pseudo-labeling）、新颖性分类（novelty classification）和客观性评分（objectness scoring）。本文的实验在MS-COCO和PASCAL VOC两个数据集上进行，在增量目标检测的设置下，达到了SOTA性能。

论文标题:
OW-DETR: Open-world Detection Transformer
论文链接：
https://arxiv.org/abs/2112.01513（尚未开源）

一、引言

现有的目标检测任务设定中，在模型训练阶段和测试（推理）阶段，目标类别需要保持一致。本文所涉及的开放世界目标检测 (OWOD) 放宽了现有基准中考虑的闭集假设，即在训练时，需要考虑赋予模型逐步识别新类别的能力，以增量学习的方式更新模型的知识，而无需从头训练之前就识别的类。发表在CVPR2021上的ORE模型[1]首次对开放世界目标检测做出了尝试，ORE使用auto-labeling来收集一部分未知类别的伪数据，通过一个类别无关的RPN网络生成未知类别的候选框，需要注意的是，这些候选框与已知类别的标注框（GT）不重叠，但是其具有较高的RPN区域分数。随后将这些伪数据与已知类别数据一起进行聚类，学习未知类别的原型特征。此外，ORE 学习基于能量的二分类器来区分未知类和已知类。

本文提出的OW-DETR可以看作是对ORE模型的重新思考和改进。对于ORE方法中的聚类操作，只使用单个原型特征来表征未知类别，本文认为这种表征是不充分的，难以对未知目标中复杂类内变化进行建模。此外，由于ORE基于Faster-RCNN进行二次设计，没有明确建模长程依赖关系，这对于捕获包含不同对象的图像中的上下文信息至关重要，因此本文基于视觉Transformer架构，设计了一种新颖的多尺度上下文检测器，其中包括注意力驱动的伪标签生成、新颖性分类和客观性评分三个模块，共同作用有效提高了OWOD性能。本文所提的OW-DETR框架如下图所示。

二、方法

下图为本文方法的整体框架图，图片首先通过一个多尺度backbone提取特征，随后输入到Transformer的Encoder和Decoder中，Decoder在通过跨尺度注意力和自注意机制驱动下，将一组个可学习的query向量转换为对应的嵌入向量，随后被输入到三个独立分支（回归分支、新颖性检测分支和客观性评分分支）进行后续的定位和识别。除这三个分支之外，本文方法的基本框架与Deformable DETR[2]基本保持一致，首先使用二分匹配损失从GT标签中选择已知类的预测目标，然后从余下的目标查询向量中选择候选未知类的目标实例，其中候选目标实例是通过特征图的区域激活幅度 来确定的，较高对应的查询向量被标注为未知类别的伪标签数据。

2.1 注意力驱动的伪标签生成

在这一模块中，作者引入了一种自上而下的伪标签生成方案，该方案在单阶段目标检测器中具有良好的泛化性。输入图像经过backbone得到特征图，特征图上的各区域的激活值大小反映了该空间位置上存在目标置信度，如下图所示。

表示经过通道平均计算后的特征图，特征图上每个目标的置信度分数由下式计算得到：

其中表示预测框的中心坐标和长宽。对于具有个已知类目标的图像，经过二分匹配损失筛选后得到个未知类别的目标实例，从中选取置信度分数较高的个实例标记为伪标签。

2.2 新颖性分类

新颖性分类模块的训练完全依赖于上一节中介绍的注意力驱动生成的伪标签，而无需其他额外的监督信息。标准目标检测器中的分类分支会将输入的查询向量分类为已知类和背景类，即。但是，当遇到未知类别的目标时，这种检测器无法将其归入任何一种类别。为了克服这个问题，本文在分类分支中引入了新颖类标（为了方便设置为0），训练数据为上一节得到的伪标签数据，其与已知类的实例共同训练分类分支，即

2.3 客观性评分

通过上述两个模块的处理，模型已经能够将输入的查询向量分类到已知的C类或未知类中，但是模型仍然缺乏将已有知识从已知类别迁移到未知类别的能力，此外，单纯通过注意力驱动模块生成的伪标签可能不太准确，由于缺乏明确的未知类标签的监督，会导致大多数的查询向量在图像的背景区域进行预测。为了缓解这些问题，我们引入了一个前景目标分支。该分支会对每个查询向量给出一个客观性评分，以便更好的将前景目标（已知和未知）与背景分开。这种与类别无关的评分还有助于模型将知识从已知类别转移到未知类别，即构成前景目标的特征。

三、实验效果

本文分别在MS-COCO和Pascal VOC数据集上进行了实验，为了满足开放世界目标检测的任务设定，本文仿照ORE[1]实验将MS-COCO分成四个子任务，每个任务包含20个类别，当网络学习前几个任务时，余下任务中的类别被视为未知类别，以增量的形式进行学习。对于已知类别，本文使用mAP作为评价指标。而对于未知类别，使用召回率作为评价指标。

下表展示了本文方法与ORE方法在OWOD设定下的性能对比，其中mAP反映了模型对于已知类别的检测能力，召回率（U-Recall）量化了模型检索未知目标实例的能力。下表上栏中罗列的标准目标检测器（Faster R-CNN 和 DDETR）在已知类别中展现出了较高的mAP性能，但是它们并不适用于OWOD设定。为了公平起见，本文只与ORE方法比较了未知类别的检测效果，可以看到，本文方法在跨任务上提高了U-Recall分数，展示了更强的未知类检测能力，需要注意的是，由于在任务4中，所有的80个类别已经全部转为已知类，所以不会计算U-Recall。

除了使用召回率评估检测器对未知目标的检测能力，还可以通过检测器的mAP值与其在闭集设定上的mAP降低的程度来衡量。下表展示了这一实验对比结果，可以看出，通过对未知对象的实例进行建模，本文的方法在开集设定上相比其他方法有明显的优势。

为了更加直观展示本文方法检测未知目标的能力，本文进行了增量目标检测（iOD）的实验，该任务可以反映模型可以逐渐减少将未知目标的实例归类为已知类的混淆情况，从而能够将各种新遇到的未知类对象学习为真正的前景目标。本文的实验设置有三种情况，分别是10+10，15+5和19+1的组合，本文的方法在这三种增量组合上均取得了最佳效果，详细效果如下表所示。

下图展示了本文方法在MS-COCO测试集上的可视化效果，以及对应的注意力特征图A。其中黄色框表示已知类的目标，紫色框表示未知类的目标。可以观察到，本文方法可以有效的检测到未知类别的实例，例如左上角图像中的滑板、右上角图像中的网球拍以及左下角图像中的飞盘等等。

四、总结

本文针对开放世界目标检测问题提出了一种新的视觉Transformer网络OW-DETR。本文基于伪标签生成、新颖性分类和客观性评分三个模块相互协作在开集目标检测设定和增量目标检测设定上都达到了SOTA性能，这也展示了视觉Transformer网络在这种需要长程依赖关系建模问题上的天然优势。

参考文献

[1] KJ Joseph, Salman Khan, Fahad Shahbaz Khan, and Vineeth N Balasubramanian. Towards open world object detection. In CVPR, 2021.

[2] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2021.

作者：seven_

Illustrastion by By Pixel True from Iconscout

-The End-

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

⤵一键送你进入TechBeat快乐星球

阅读原文