CVPR'21 | RMNet:又快又好!基于局部特征记忆网络的视频物体分割

谢浩哲 将门创投 今天
图片





图片

CVPR 2021 文章专题

第·15·期


图片
视频物体分割(Video Object Segmentation)的目标是估计视频中未知类别物体的掩膜,它被广泛应用于视频后期处理等场景中。现有基于时空记忆(Space-Time Memory)的方法通过全局特征匹配计算当前帧和过去帧像素级的相似性,并根据该相似性将过去的物体掩膜“迁移”至当前帧。然而这种全局的相似性度量无法很好地区分相似物体,并且造成了较大的计算开销。

为了解决这个问题,我们提出了RMNet仅提取目标物体所在区域的特征,并在该区域内进行特征匹配,从而显著减少了对相似物体的错配,并提高了计算效率

图片

Paper:
https://arxiv.org/pdf/2103.12934
Project Page:
https://haozhexie.com/project/rmnet
GitHub:
https://github.com/hzxie/RMNet

图片

、引言

现有的视频物体分割使用了掩膜传播(Mask Propagation)或者特征匹配的策略估计物体在视频序列中的掩膜。早期基于掩膜传播的方法[1-3]使用光流将物体的掩膜从上一帧传递至下一帧,并使用一个全卷积网络(FullyConvolutional Network)完善估计的物体掩膜。然而基于掩膜传播的方法很容易造成误差累积,特别是当目标物体被遮挡或是漂移时。

近几年,基于特征匹配的方法[4-7]使用全局-全局的特征匹配计算过去帧和当前帧特征相似度和匹配关系。在这些方法中,基于STM(Space-Time Memory)的方法[4-6]将过去帧记忆在网络中,从而更好地应对物体的遮挡和漂移。然而,这些方法也记忆了目标物体之外区域的特征,从而导致了对相似物体的错配,也造成了更高的计算复杂度。

本质上,全局特征所造成的错误匹配可以被分为2种类型,如图1所示:

(I) 在当前帧中的目标物体被错误的匹配至过去帧中的物体(红色实线)

(II) 在过去帧中的目标物体被错误的匹配至当前帧中的物体(红色虚线)

造成这两种类型的错误主要是由于在不必要的区域(即目标物体未出现的区域)进行了特征匹配。事实上,对于每一帧而言,目标物体仅在较小的一个区域内出现,因此在局部区域进行特征匹配是合理的也是必要的。

为了解决这个问题,我们提出了RMNet,仅记忆过去帧中目标物体所在区域的特征,从而有效避免了(I)所描述的错误匹配。为了跟踪和预测当前帧中的目标物体,我们估计了相邻两帧的光流,并将上一帧物体的掩膜通过光流warp至当前帧。通过warp得到的物体掩膜提供了一个大致的目标物体出现区域,从而有效避免了(II)所描述的错误匹配。

图片

图1 全局-全局匹配和局部-局部匹配的正确和错误的特征匹配
二、解决方案
图片
图2 RMNet的总体框架图
所提出的RMNet的总体框架图如图2所示。和STM[4]一样,当前帧被视作查询帧(Query Frame),过去帧以及估计的物体掩膜被用于记忆帧(Memory Frame)存储于记忆网络中。对于STM中的记忆帧和查询帧,整张图像的特征都被存储下来;而在RMNet中,我们仅使用目标物体所在区域的特征,并为记忆帧和查询帧中的目标物体分别生成对应的局部记忆特征和局部查询特征。局部记忆特征和局部查询特征是通过从记忆编码器(Memory Encoder)和查询编码器(Query Encoder)抽取的特征表示(Feature Embedding)和局部注意力图(Regional AttentionMap)点乘得到的。局部记忆特征和局部查询特征都包含一个局部键(Regional Key)和局部值(Regional Value)。
在STM中,时空记忆阅读器(Space-Time Memory Reader)被用于在记忆帧和查询帧中进行全局的特征匹配。而在RMNet中,局部记忆阅读器(Regional Memory Reader)仅在包含目标物体的局部记忆特征和局部查询特征进行局部特征匹配,不仅减少了对相似物体的错配,而且提高了特征匹配效率。局部记忆阅读器的输出被输入至解码器(Decoder)生成目标物体在查询帧的掩膜。
局部特征表示
近期基于STM的方法为过去帧的每张图都构建了全局的特征表示。然而,对于记忆帧,目标物体之外的特征可能导致特征匹配过程中对于相似物体错误匹配,如图1中的红色实线所示。为了解决这个问题,我们引入了局部记忆特征,仅在包含目标物体的区域内进行特征匹配。
具体而言,对于图片时刻,在特征尺度上目标物体的掩膜可表示为图片,则对于第图片个物体的局部注意力图图片可通过如下方式计算获得:
图片
其中图片图片分别表示目标物体边界框左上角和右下角的坐标。这两个坐标是通过如下公式确定的:
图片
其中,图片表示边界框的膨胀像素值,它决定了对于所估计的物体掩膜的错误容忍度。特别地,当第图片个物体在图片中消失时,我们定义图片。给定第图片个物体在记忆帧中的局部注意力图图片,局部记忆特征中的局部键图片和局部值图片是由记忆编码器生成的局部记忆特征表示和局部注意力图图片点乘得到的。
和局部记忆特征类似,我们使用了局部查询特征缓解查询帧中对于相似物体的错误匹配,如图1中的红色虚线所示。为了尽可能准确地获取当前帧中目标物体所在的区域,我们为该物体跟踪并预测了一个粗略的掩膜图片。具体而言,我们将上一帧物体的图片通过所提出的TinyFlowNet估计的光流映射到当前帧,得到当前帧目标物体的掩膜图片。和局部记忆特征一样,图片被用于生成查询帧中第图片个物体的局部注意力图图片。为了更好地处理对目标物体的遮挡,当目标物体的像素个数小于图片时,我们定义图片,这将会在查询帧中触发对目标物体的全局搜索。如图3所示,当目标物体消失时,特征匹配区域(用红色边界框表示)将会被扩展至全图;当目标物体再次出现时,特征匹配区域重新聚焦至包含目标物体的区域。这个机制可以有利于基于光流的跟踪,使得网络可以感知目标物体的消失,使得网络可以对物体的遮挡更加鲁棒。和局部记忆特征类似,局部查询特征中的局部键图片和局部值图片是由查询编码器生成的全局查询特征表示与局部注意力图点乘得到的。
图片
图3 在目标物体被遮挡前后特征匹配区域的变化
局部记忆阅读器
在STM中,时空记忆阅读器被用于度量查询帧和记忆帧的相似度。给定第图片个物体记忆特征中的键图片和查询特征中的键图片,则图片图片的相似度为:
图片

其中图片表示特征键中的通道数,图片表示记忆帧的数量。令图片图片分别表示在图片图片中的索引值,则图片在位置上的查询值可被计算为:

图片
其中图片表示记忆特征中的值。最终,时空记忆阅读器在图片位置上的输出为:

图片

其中图片代表查询特征的值;图片表示拼接(Concatenation)。

基于局部特征表示,RMNet中使用了局部记忆阅读器仅在包含目标物体的区域内进行局部-局部的特征匹配,如图2所示。和之前工作中[4-6]使用的全局-全局的记忆阅读器相比,局部记忆阅读器可以减少在记忆帧和查询帧中对于相似物体的错误特征匹配。令图片图片分别表示第图片个目标物体在记忆帧和查询帧中进行特征匹配的区域。在全局-全局的特征匹配中,像素之间的相似度是通过一个大矩阵乘法获得的,即图片图片为特征表示键值中的所有位置。而在局部记忆阅读器中,和分别被定义为:

图片

对于满足图片或者图片的位置,它们的相似度被定义为:

图片

图片图片分别表示查询帧中第图片个物体所在区域的高度和宽度,图片图片分别表示记忆帧中包含目标物体的区域的最大高度和最大宽度。因此,时空记忆阅读器的时间复杂度为图片。相比之下,局部记忆阅读器的时间复杂度被减小至图片。如图4所示,图片图片。时空记忆阅读器本质上是一个非局部神经网络(Non-LocalNeural Network),而它经常因为全局-全局特征匹配所导致的高计算复杂度被人诟病;而所提出的局部记忆阅读器通过局部-局部的特征匹配使得其的时间复杂度显著降低。

图片

图4 在DAVIS 2017和YouTube-VOS的训练集上目标物体边界框占全图比例
三、实验结果
对于单个物体分割,我们将所提出的RMNet和其他的state-of-the-art方法在DAVIS 2017数据集和YouTube-VOS验证集上进行了对比,其结果如表1-3所示。可见RMNet的性能超越了其他所有的方法

图片

表1 DAVIS2017验证集的量化结果
图片表2 DAVIS 2017测试集的量化结果

图片表3 YouTube-VOS(2018版本)验证集的量化结果

以下的视频展示了我们的方法和近期基于特征匹配的方法[4,6,7]在YouTube-VOS上的对比结果。

参考文献:

[1] Hu et al. MaskRNN: Instance level video object segmentation.NIPS2017.

[2] Luiten et al. PRe- MVOS: Proposal-generation, refinement and mergingfor video object segmentation. ACCV 2018.

[3] Perazzi et al. Learning video object segmentation from staticimages.CVPR 2017.

[4] Oh et al. Video object segmentation using space-time memory networks.ICCV 2019.

[5] Seong et al. Kernelized memory network for video objectsegmentation. ECCV 2020.

[6] Lu et al. Video object segmentation with episodic graph memorynetworks. ECCV 2020.

[7] Yang et al. Collaborative video object segmentation byforeground-background integration. ECCV 2020.
Illustrastion by Oleg Shcherba from Icons8

//

 作者介绍 

谢浩哲,目前于哈尔滨工业大学计算学部攻读博士学位。他以第一作者身份在CVPR、ICCV、ECCV、IJCV等计算机视觉顶级会议和期刊上发表多篇论文。他的研究方向主要包含3D重建、语义分割和计算机视觉。

个人主页:https://haozhexie.com/about

- The End -

CVPR 2021 论文解读 

// 1

 SensatUrban: 城市规模点云数据集

// 2

 上交和国科大提出DCL: 旋转目标检测新方法

// 3

 TPCN 点云就是这么美妙

// 4

 机器学习与传统算法融合的图相似度求解

// 5

 图森未来团队提出LiDAR R-CNN:一种快速、通用的二阶段3D检测

// 6

 动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%!

// 7

 VSPW: 首个多场景大规模视频语义分割数据集

// 8

 图森未来与中科院自动化所提出GMTracker:一种基于图匹配的多目标跟踪方法

// 9

 SpinNet: 学习用于3D点云配准的强泛化能力的特征描述子

// 10

 RegDA:针对无监督关键点检测的回归域自适应方法

// 11

 都柏林圣三一大学和字节新工作ACTION-Net:一种高效、即插即用的动作识别模块

// 12

 大连理工大学卢湖川团队提出TransT: Transformer Tracking

// 13

 DisAlign: 面向多种长尾视觉任务的统一框架

// 14

| 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet


图片

扫码观看!

本周上新!

图片


关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
图片    
点击右上角,把文章分享到朋友圈