结合欧式距离与测地线距离的双重优势, 德国亚琛工业大学提出DualConvMesh-Net更好处理3D网格数据

让创新获得认可 将门创投 今天

From:arxiv 编译:T.R

对于网格形式的3D数据学习一直以来是三维深度学习研究的重点,网格的复杂性和不规则性使得通常的卷积网络无法有效的应用。为此来自德国亚琛工业大学的研究人员们提出了一种集成测地线卷积和欧几里得卷积的层级卷积模型DualConvMesh-Net,用于处理三维几何数据,其中定义在网格表面的测地线卷积可以将作用于给定网格的局域表面,更加注重对于不同目标的编码与分离;而定义在邻域的欧几里得卷积则独立于表面结构,着重于分析区域内点之间的相互关系、编码邻近目标间的相关性,而不注重目标的独立性。


通过有效结合欧几里得卷积和测地线卷积,基于层级结构实现多尺度多分辨率的网格分析,最终大幅度提升了三维语义分割任务的性能,并在多个数据集上取得了优异的结果。



向三维几何进军的深度学习


随着深度学习在图像领域取得了令人瞩目的成就,研究人员们也逐渐开始将深度学习方法特别是卷积神经网络从规则、离散的音频、图像和体素领域,向非规则的几何数据上进行应用。典型的几何数据包括图结构、点云和3D网格等,目前针对这一领域的研究基于数据表示的不同主要分为两大方向:3D场景理解3D形状分析

其中3D场景理解的主要任务包括语义分割、实例分割、部件分割等等,所面对的通常是点云数据。人们常常将原始点云转换到规则的离散三维栅格中,以便标准的3D卷积处理。而直接处理点云显然是一种更为便捷的方法,但最大的挑战则来自于如何将卷积作用于非规则的点集上。这种方式通常将卷积核作用于利用球或者K最邻近等欧几里得方法得到的邻域点集中。这种基于欧式距离的欧式卷积关注与点与点之间的相互关系,还对表面形变非常敏感。

与三维场景理解不同的是,三维形状分析主要集中于形状关系、形状描述和检索方面,主要关注以网格或者图形式所编码的表面信息。这种情况下,卷积核通常定义在网格或者图的局域片层上,通过测地线距离来进行定位和联系(可以理解为沿着物体表面连接两个节点见最短的边)。这种方式的卷积被称为测地线卷积,其最主要的特性是
对于曲面形变具有不变形的特点,因此非常适合与独立个体的描述与辨别


上图彩色梯度显示了两种不同卷积的特点,可以看到测地线距离可以有效分离出独立的个体,它专注于沿着表面进行学习;而欧式距离则更多地专注于空间相关性,可以衔接起小部分的缺失,以便学习到更多的上下文信息,补全缺失部分。

在这篇文章中,研究人员探索了上述的两种卷积在三维网格语义分割任务中的应用。目前绝大多数方法都基于欧式卷积,很少有利用测地线方法来进行的研究。欧式卷积主要专注于上下文和邻域信息的学习,而测地线距离则主要针对特定目标,沿着其表面进行形状学习。这两种方法各有优劣,那么如何将他们的优势结合起来提升模型性能呢?

为了解决这一问题,建立结合两种卷积的综合架构,研究人员提出了
DualConvMesh-Net,在网格数据下利用两种卷积对几何结构进行综合学习与处理。为了在不同尺度上对欧式特征和测地线特征进行学习,不仅构建了层级网络架构,同时提出网格池化算法来在各个层级上简化并保留重要的网格结构。下面就详细地了解模型如何融合不同卷积方法并对网格进行简化和学习的。

DualConvMesh-Net


本文提出的DualConvMesh-Net(DCM-Nets)是一类层级深度网络架构,它结合了测地线图卷积在3D表面网格上的优势和欧几里得图卷积在空间域中3D顶点上的优势。网络的输入是包含了顶点信息的网格、输入则是包含顶点特征的网格,可以有效用于稠密预测任务。网络通过模块化的形式构建,具有容易集成与测评的优势。

本文提出的主体网络架构如下图所示,在编码器解码器架构的基础上添加了衔接的残差结构,便于训练收敛。可以看到网络由多个层级组成,每个层级中包含了多个叠加的DualConv结构。在DualConv结构中,测地线卷积和欧式卷积并行作用,并将得到的特征图进行衔接输出。而针对不同尺度的网格,则需要利用池化算法来对网格进行简化。



针对欧几里得图卷积和测地线图卷积,针对某个尺度的网格来说其顶点(Vertex)为欧式空间中的点集,而其边则分为了基于knn或者一定邻域半径内得到的欧几里得形式的边,以及基于网格上的面而得到的测地线边(Edge).而最终卷积作用于与顶点对应的特征xi上,输出yi为顶点vi的对应特征:


其中N表示顶点附近的邻域,φ为训练的非线性映射函数。值得注意的是,卷积核参数θ的数量与核的大小无关,同时归一化的分母提高了卷积对于不同邻域数量的鲁棒性。针对网络最开始的卷积层,定义了仅仅依赖边缘信息具有不变形的卷积操作,仅仅输入xj-xi,而去除了包含绝对位置的初始特征xi。这样的改变是的模型可以在场景的片层上训练,但同时可以在完整的结构上进行测评,不仅为每个顶点带来更广的上下文区域,同时也减少了运行时间。此外对于初始欧几里得与侧地线空间邻域的复用则使得更深的图卷积成为可能,同时也减少了运行的内存需求提高的计算速度。

另一种可行的卷积则定义于顶点的相对位置上,但本文则重点研究那些在欧式卷积和侧地线卷积下不同的区域:测地线图卷积定义的领域是沿着表面可以通过一条边触及的顶点,这意味着邻域中只包含局域测地线尺度上接近的点;而欧式图卷积则基于欧式距离定义的邻域,一般利用k-nn或者一定半径内的图结构来得到。

为了在不同层级上对网格进行处理,提出了基于池化追踪图(pooling trace map)的方式来对网格进行不断简化。其中第0级是原始的分辨率最高的层次,网格的分辨率随着l的增加而降低。池化追踪图的目的是将l层的顶点通过双射的方式映射到下一个层次l+1的顶点集合中。而后通过边的简化算法得到l+1层的边,并连接得到的顶点。下图显示了网格的池化过程,在简化网格的同时保持测地线邻域。


实际过程中使用了两种成熟的集合处理方法,Quadric Error Metrics(QEM)和Vertex Clustering(VC),结合池化追踪图来实现池化和上采样的过程。


针对网格的池化过程


大规模场景分割


为了验证方法的有效性,研究人员在S3DIS、ScanNetV2和Matterport3D等三个大规模场景分割数据集上进行了实验。其中S3DIS来自斯坦福大学,包含六个大规模的室内场景,共三栋不同楼房内的271个房间和13类语义标签;ScanNetv2则包含了种类丰富的室内场景和对应的重建表面、纹理网格、基准语义标注等,其中包含了20个语义分类;Matterport3D包含了90个建筑尺度的RGB-D扫描结果和21个类别标注。

通过充分训练后,下表显示了本文方法的性能。在ScanNet数据和S3DIS数据集上,本方法得到了较好的结果,超过了现有的图卷积方法。



对于一些具有挑战的类别也可以正确地进行预测并维持清晰的边界,比如第二行中的浴帘:



下表还展示了在Matterport3D数据上针对不同类别的预测精度,本文提出的方法在绝大多数类别上也具有良好的预测精度:



最后再展示对应的语义分割结果。这种方法可以有效分离出原始数据中没有标注甚至错误标注的区域(例如最后一行的沙发被标注成了椅子):



如果想要了解更多的理论细节,请参看项目网站和论文的补充材料
https://github.com/VisualComputingInstitute/dcm-net
https://arxiv.org/abs/2004.01002



本周Talk上新
扫描下图二维码抵达Talk界面


来扫我呀


关于我“


将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能物联网、自然人机交互企业计算在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com


点击“❀在看”,让更多朋友们看到吧~