CVPR 2021 文章专题
第·3·期
在空间维度上,代理可以看作是无序的点集,因此可以直接将点云学习技术应用于代理位置的建模。虽然空间维度未考虑运动学和运动信息,但本文进一步提出了动态时间学习来模拟随时间变化的智能体运动。
论文链接:
https://arxiv.org/pdf/2103.03067.pdf
一、引 言
随着自动驾驶的深入,planning以及prediction成为越来越关键的任务。以往的方法,其实大致可以分为三种,一种是ruled based的方式,通过运动学模型以及高精度地图进行约束;第二种是纯learning based的model;第三种就是planning + learning的方式,通过一个传统的prediction或者planning模块提供高质量的proposal,然后通过learning的方式进行refine以及classification,有点像RCNN。对于纯learning based的方式,根据输入的representation也可以分为rasterization image (MultiPath, ChauffeurNet等),vector representation (VectorNet),以及以laneconv为代表的图卷积神经网络。
时间信息可以提供运动信息比如速度加速度,
空间信息更多的强调跟周围环境(地图)或者物体的交互信息。
对于这项任务,其实输入的就是离散的点,即使地图的车道线也可以离散化成地图点,同时这些点在空间上又具有稀疏性、离散稀疏、permutation invariant、尺度不变性,这几个属性其实就是点云数据的属性,只不过这些点有些带了时序信息,比如同一个agent在不同时刻的位置。因此,点云处理的想法应用在这个任务上非常有潜力,只不过我们得通过额外的处理手段去提取时序信息。因此,我们提出了TPCN,这是一个用来处理prediction问题中时序空间信息以及二者信息融合的灵活且同一的框架。
总体来说,TPCN核心包含了两个模块:
Dual-representation Spatial Learning
Dynamic Temporal Learning
在点云任务中,PVCNN、PVRCNN等提出也论证了多视角、多种表征方式在点云特征学习的重要性,因此我们也采用了这种方式。本质上来说,这些方式其实都维护了不同表征下同一个点的一对一的索引关系,这里我们称之为indexing系统,有了这种一对一的mapping,我们可以很简单地完成point-level的融合。在这种想法的引导下,其实空间跟时间的点在这个任务其实也存在一对一的映射关系,因此我们也可以建立一套空间点到时间点的一对一的映射关系,我们称为Instance Time Indexing的系统。图2展示了一个简单的例子。
一旦有了一套Instance Time Indexing,我们就可以非常方便在时间和空间两个作用域进行point-level features的propagation,也可以进行时间跟空间上的point-level features的融合。这里之所以成为dynamic,是因为相比以前的方法,LaneConv是需要把所有的agents pad到固定的时间长度,然后处理的时间需要做masking,而我们的方式是没有任何冗余的特征表示形式。在此基础上,我们借鉴了PSPNet,利用GPU上的scatter、gather、unique等操作 (从代码的实现角度来说,也有不少的成熟库实现了相关的操作,比如pytorch_scatter),实现了多尺度的时间上的Multi-interval Learning以及Instance Pooling,具体操作可以参考文章的Sec.3.2。
有了时序特征以及空间特征,我们在point-level的基础上就可以从时间转换到空间,也可以从空间转换到时间,时序特征以运动信息为主,空间信息关注地图、agent之间的交互,最后达到了一个统一灵活的学习框架。
四、一些有用的技巧
因为prediction任务的多模态性质,很多时候网络会输出多条轨迹以及各自的概率,训练的过程中,一般是选择当前mFDE最小的轨迹进行反传,但是这个时候如果有两条的轨迹相当接近真值,其实也只会有一条进行反传,其实这是不合理的。因此,受到IoU Loss的启发,我们不预测概率而是预测displacement error,这样一来,在分类的loss branch,所有的样本以及预测的displacement都可以进行反传。这里不涉及到label的分配,把分类问题转化为回归问题,变成了一个类似于soft label的regression problem。实验证明,displacement loss优于分类的loss。
同时对数据的分布的统计,我们也做一些data augmentation,比如随机缩放、random point drop这些小的trick对于最后模型性能也存在一定的提升
最后,我们在argoverse上面的验证集以及测试集验证了我们方法的有效性,包含了各个模块的消融实验。
最后,在argoverse测试集的成绩,证明我们的TPCN有效提高的SOTA~
ref:
[1] TNT: Target-driveN Trajectory Prediction
[2] Learning Lane Graph Representations for Motion Forecasting
[3] MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses
[4] VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation
[5] ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst
Illustration by Ivan Haidutski from Icons8
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
扫二维码|关注我们
微信:thejiangmen
bp@thejiangmen.com
点个“在看”,分享好内容