论文标题: OW-DETR: Open-world Detection Transformer 论文链接: https://arxiv.org/abs/2112.01513(尚未开源)
现有的目标检测任务设定中,在模型训练阶段和测试(推理)阶段,目标类别需要保持一致。本文所涉及的开放世界目标检测 (OWOD) 放宽了现有基准中考虑的闭集假设,即在训练时,需要考虑赋予模型逐步识别新类别的能力,以增量学习的方式更新模型的知识,而无需从头训练之前就识别的类。发表在CVPR2021上的ORE模型[1]首次对开放世界目标检测做出了尝试,ORE使用auto-labeling来收集一部分未知类别的伪数据,通过一个类别无关的RPN网络生成未知类别的候选框,需要注意的是,这些候选框与已知类别的标注框(GT)不重叠,但是其具有较高的RPN区域分数。随后将这些伪数据与已知类别数据一起进行聚类,学习未知类别的原型特征。此外,ORE 学习基于能量的二分类器来区分未知类和已知类。
本文提出的OW-DETR可以看作是对ORE模型的重新思考和改进。对于ORE方法中的聚类操作,只使用单个原型特征来表征未知类别,本文认为这种表征是不充分的,难以对未知目标中复杂类内变化进行建模。此外,由于ORE基于Faster-RCNN进行二次设计,没有明确建模长程依赖关系,这对于捕获包含不同对象的图像中的上下文信息至关重要,因此本文基于视觉Transformer架构,设计了一种新颖的多尺度上下文检测器,其中包括注意力驱动的伪标签生成、新颖性分类和客观性评分三个模块,共同作用有效提高了OWOD性能。本文所提的OW-DETR框架如下图所示。
二、方法
下图为本文方法的整体框架图,图片 首先通过一个多尺度backbone提取特征,随后输入到Transformer的Encoder和Decoder中,Decoder在通过跨尺度注意力和自注意机制驱动下,将一组 个可学习的query向量转换为对应的嵌入向量 ,随后被输入到三个独立分支(回归分支、新颖性检测分支和客观性评分分支)进行后续的定位和识别。除这三个分支之外,本文方法的基本框架与Deformable DETR[2]基本保持一致,首先使用二分匹配损失从GT标签中选择已知类的预测目标,然后从余下的目标查询向量中选择候选未知类的目标实例,其中候选目标实例是通过特征图的区域激活幅度 来确定的,较高对应的查询向量被标注为未知类别的伪标签数据。
2.2 新颖性分类
2.3 客观性评分
通过上述两个模块的处理,模型已经能够将输入的查询向量 分类到已知的C类或未知类中,但是模型仍然缺乏将已有知识从已知类别迁移到未知类别的能力,此外,单纯通过注意力驱动模块生成的伪标签可能不太准确,由于缺乏明确的未知类标签的监督,会导致大多数的查询向量在图像的背景区域进行预测。为了缓解这些问题,我们引入了一个前景目标分支 。该分支会对每个查询向量给出一个客观性评分,以便更好的将前景目标(已知和未知)与背景分开。这种与类别无关的评分还有助于模型将知识从已知类别转移到未知类别,即构成前景目标的特征。
本文分别在MS-COCO和Pascal VOC数据集上进行了实验,为了满足开放世界目标检测的任务设定,本文仿照ORE[1]实验将MS-COCO分成四个子任务,每个任务包含20个类别,当网络学习前几个任务时,余下任务中的类别被视为未知类别,以增量的形式进行学习。对于已知类别,本文使用mAP作为评价指标。而对于未知类别,使用召回率作为评价指标。
下表展示了本文方法与ORE方法在OWOD设定下的性能对比,其中mAP反映了模型对于已知类别的检测能力,召回率(U-Recall)量化了模型检索未知目标实例的能力。下表上栏中罗列的标准目标检测器(Faster R-CNN 和 DDETR)在已知类别中展现出了较高的mAP性能,但是它们并不适用于OWOD设定。为了公平起见,本文只与ORE方法比较了未知类别的检测效果,可以看到,本文方法在跨任务上提高了U-Recall分数,展示了更强的未知类检测能力,需要注意的是,由于在任务4中,所有的80个类别已经全部转为已知类,所以不会计算U-Recall。
除了使用召回率评估检测器对未知目标的检测能力,还可以通过检测器的mAP值与其在闭集设定上的mAP降低的程度来衡量。下表展示了这一实验对比结果,可以看出,通过对未知对象的实例进行建模,本文的方法在开集设定上相比其他方法有明显的优势。
为了更加直观展示本文方法检测未知目标的能力,本文进行了增量目标检测(iOD)的实验,该任务可以反映模型可以逐渐减少将未知目标的实例归类为已知类的混淆情况,从而能够将各种新遇到的未知类对象学习为真正的前景目标。本文的实验设置有三种情况,分别是10+10,15+5和19+1的组合,本文的方法在这三种增量组合上均取得了最佳效果,详细效果如下表所示。
下图展示了本文方法在MS-COCO测试集上的可视化效果,以及对应的注意力特征图A。其中黄色框表示已知类的目标,紫色框表示未知类的目标。可以观察到,本文方法可以有效的检测到未知类别的实例,例如左上角图像中的滑板、右上角图像中的网球拍以及左下角图像中的飞盘等等。
四、总结
本文针对开放世界目标检测问题提出了一种新的视觉Transformer网络OW-DETR。本文基于伪标签生成、新颖性分类和客观性评分三个模块相互协作在开集目标检测设定和增量目标检测设定上都达到了SOTA性能,这也展示了视觉Transformer网络在这种需要长程依赖关系建模问题上的天然优势。
参考文献
[2] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2021.
作者:seven_
Illustrastion by By Pixel True from Iconscout
关于我“门”
▼
点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文
⤵一键送你进入TechBeat快乐星球