CVPR 2021 | 港大、牛津提出PAConv: 一种位置自适应卷积,点云分类、分割任务表现SOTA

许牧天 丁润语 将门创投 今天
图片





图片

CVPR 2021 文章专题

第·16·期


图片

香港大学CVMI Lab牛津大学合作提出了一种点云上具有动态内核组装的位置自适应卷积——PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds,论文已被CVPR 2021接收。

PAConv的卷积核由多个基本权重矩阵动态组装而成,而在组装过程中,这些权重矩阵的系数是通过点的位置关系自适应学习得到的。这种以数据驱动构建卷积核的方式赋予了PAConv很强的灵活性,以更好地处理不规则和无序的点云数据。此外,与现有点云卷积高度工程化的网络结构不同,作者将PAConv直接集成到基于MLP的经典点云网络架构中,而无需更改原有的网络配置。即使建立在简单的网络架构上,PAConv仍然以很高的效率在点云分类、部件分割和场景分割的任务中表现SOTA。
目前全部的代码和模型都已开源,欢迎交流!

图片

论文链接:

https://arxiv.org/abs/2103.14635

代码:

https://github.com/CVMI-Lab/PAConv

图片

、引言

近年来,深度学习在三维点云处理上取得了显着进步,但鉴于点云的稀疏性、不规则性和无序性,这仍然是一项具有挑战性的任务。现有方法大致分为三类:

  • 第一类是对点云进行体素化以便可以采用三维网格卷积处理,然而重要的几何信息可能由于量化而丢失,体素化通常也会带来额外的存储和计算成本;

  • 第二类是用共享MLP处理所有点,这种方式难以表征点云空间复杂的变化关系;

  • 第三类则是设计可以直接处理点云的卷积核,现有方法亦受限于计算复杂度或灵活性,本文中也特别对现有的点云卷积与本文方法的关系和区别进行了详尽的讨论。

本文提出了一种即插即用的位置自适应卷积PAConv,通过动态组装基本权重矩阵来构造内核,这些权重矩阵的组合系数由ScoreNet自适应地学习点的相对位置关系得到。PAConv以数据驱动的方式灵活地对三维点云的复杂空间变化和几何结构进行建模,同时保持很高的效率。另外值得一提的是,最近的点云卷积工作大多采用其量身定制的复杂网络架构,使得我们难以评估到底是其自身卷积操作还是网络设计而带来性能的提升。所以,作者直接将PAConv集成到最简单的MLP点云网络中,旨在最大程度地降低网络结构的影响,以更好地评估PAConv本身的性能。

二、方法概述
图片
首先,本文定义了一个Weight Bank图片,其中每一个图片代表着一个权重矩阵,是权重矩阵的个数。直观地,较大的图片有助于用于内核组装的权重矩阵更加多样化。但是,过多的权重矩阵可能会带来冗余,并带来较大的内存/计算开销。作者发现将图片设置为8或16是合适的,并在实验部分进行了讨论。
接下来,作者设计了一个ScoreNet,根据点的位置关系学习一个系数向量以组合权重矩阵。具体地,ScoreNet的输入为点云中某一个局部区域的中心点图片其相邻点图片之间的相对位置关系向量,作者在实验部分也探讨了不同的输入表征。输出为一个归一化的系数向量:
图片

其中图片是一个非线性函数,由MLP实现。图片代表Softmax归一化函数,图片是输入的点的位置关系向量,输出向量图片,其中图片表示构建核函数图片时,每个权重矩阵图片的位置自适应系数。Softmax确保输出的系数在 (0,1) 的范围内,以概率选择每个权重矩阵,系数越高,表示输入的位置向量和权重矩阵之间的关系越强,作者在实验部分也比较了不同的归一化函数。

最终,通过将Weight Bank中的权重矩阵与ScoreNet预测出的相应系数进行组合,得出PAConv的卷积核函数:
图片

PAConv以动态数据驱动的方式构造卷积核,其中权重矩阵的系数是从点的位置关系自适应学习的,该内核组装策略可以灵活地对点云的不规则几何结构进行建模

此外,由于权重矩阵是随机初始化的并且可能会收敛为彼此非常相似,因此无法保证权重矩阵的多样性。为了避免这种情况,作者设计了一个权重正则化函数来惩罚不同权重矩阵之间的相关性,其定义为:

图片
从而使得不同的权重矩阵将更分散和独立,进一步确保了所生成卷积核的多样性。

至此,本文还将PAConv与现有主流的几种点云卷积PointCNN,PointConv和KPConv进行了详细的对比论述。

三、简单的网络结构

虽然最近的点云网络结构差异较大,但是大多数可以视为经典的MLP点云网络的不同变体。为了评估PAConv的有效性并最大程度地减少复杂网络架构的影响,作者针对不同的点云任务采用了三个基于MLP的经典且简单的网络主干来集成我们的PAConv,而不修改原始的网络架构(如网络层数、特征通道数)。

对于物体分类和物体部件分割任务,作者直接使用PAConv替换了DGCNN中的EdgeConv 和PointNet编码器中的MLP。而对于室内场景分割任务,作者采用了PointNet++最简单的单尺度分组(SSG)版本,并用PAConv直接替换PointNet ++编码器中的MLP。

四、实验

对于物体分类任务,作者采用了ModelNet40数据集,取得了现有方法中最高的分类准确率,并且在不改变原始骨干网络PointNet和DGCNN的结构的情况下,分别带来了明显的提升。

图片
其次,本文还在物体部件分割任务的数据集ShapeNet Part上对PAConv进行了评估,同样也给DGCNN带来了显著的提升。
图片
最后,作者进一步在大规模室内场景分割数据集S3DIS上测试了PAConv的性能。值得一提的是,KPConv和PosPool都对输入点云进行了体素化(Grid-sampling)预处理以获得更规则的输入结构和更多的背景信息来提升性能,然而这种方式不可避免地带来更多的训练内存开销,所以作者直接参考PointNet++ 采用了更简单的块采样(Block-sampling)来进行数据预处理。PAConv依然为骨干网络PointNet++ 带来了明显的提升,并保持着较少的计算开销(FLOPs)。

图片

图片

此外,论文还可视化了ScoreNet学到的系数在空间中的分布。可以看出,对于每个权重矩阵,其系数的分布是不同的,表明不同的权重矩阵捕获了不同的点位置关系。

图片

五、总结

本论文提出了PAConv,一种具有动态内核组装的位置自适应卷积,用于点云处理。PAConv通过结合Weight Bank中的基本权重矩阵以及通过ScoreNet从点位置学习的相关系数来构造卷积核。将PAConv集成到简单的MLP点云网络而无需修改网络配置时,它依然可以表现SOTA,并且保持着很高的模型效率。大量的实验和可视化证明了PAConv的有效性

//

 作者介绍 

本文为共同第一作者:

1. 许牧天,2020年在香港大学齐晓娟教授所领导的CVMI Lab担任研究助理,并即将在今年九月入学香港中文大学(深圳)攻读博士学位,目前的研究兴趣主要是单个3D对象和复杂的3D场景的理解和感知。

个人主页:https://mutianxu.github.io/

2. 丁润语香港大学齐晓娟教授所领导的CVMI Lab在读博士,此前于清华大学获得学士学位,香港政府奖学金获得者。

Illustrastion by Natasha Remarchuk from Icons8
- The End -

CVPR 2021 论文解读 

// 1

 SensatUrban: 城市规模点云数据集

// 2

 上交和国科大提出DCL: 旋转目标检测新方法

// 3

 TPCN 点云就是这么美妙

// 4

 机器学习与传统算法融合的图相似度求解

// 5

 图森未来团队提出LiDAR R-CNN:一种快速、通用的二阶段3D检测

// 6

 动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%!

// 7

 VSPW: 首个多场景大规模视频语义分割数据集

// 8

 图森未来与中科院自动化所提出GMTracker:一种基于图匹配的多目标跟踪方法

// 9

 SpinNet: 学习用于3D点云配准的强泛化能力的特征描述子

// 10

 RegDA:针对无监督关键点检测的回归域自适应方法

// 11

 都柏林圣三一大学和字节新工作ACTION-Net:一种高效、即插即用的动作识别模块

// 12

 大连理工大学卢湖川团队提出TransT: Transformer Tracking

// 13

 DisAlign: 面向多种长尾视觉任务的统一框架

// 14

 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet

// 15

 RMNet:又快又好!基于局部特征记忆网络的视频物体分割


图片

扫码观看!

本周上新!

图片
关于我“
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
图片    
点击右上角,把文章分享到朋友圈