ICCV 2021 | 百度YY直播等科技公司提出自监督学习助力人手图像理解新方法——HIU-DMTL优化框架

让创新获得认可 将门创投 今天
随着VR等应用的兴起,人手交互相关的研究成为一个工业界和学术界的研究热点,但是人手相关的研究面临着数据模态不统一以及缺乏生产环境下的标注数据这两大难题。
基于这些痛点,百度YY直播联合欢聚集团、OPPO 等科技公司发表于ICCV 2021的一篇论文 Hand Image Understanding via Deep Multi-Task Learning 提出一个将多任务学习和自监督学习联合优化的框架 HIU-DMTL ,希望帮助以上问题的解决。

图片

论文链接:

https://arxiv.org/abs/2107.11646

图片

一、引言

最近一段时间,Metaverse元宇宙概念引起了巨大的轰动,其核心的概念在于沉浸式交互体验。而人手作为最重要的交互部位,相关课题比如人手重建、人手分割、人手2D关键点检测、人手3D关键点估计等等这些都成为了学术界和工业界的重点研究方向。自[1,2,3,4]在2019年首次提出并实现人手重建以来,人手重建等相关研究仍然面临着以下难题:

· 当前已有的数据的标签很难统一,比如:一些样本仅包含2D关键点标注;有的数据只有对应的人手分割Mask。怎样充分的利用已有的多模态数据是一个急需解决的问题

· 已存在的数据大部分在受控的实验室场景下采集,基于这些数据集训练的模型在生产环境下缺乏鲁棒性。是否可以利用大量未标注的样本提升算法的泛化性很少被研究

由百度YY直播 联合 欢聚集团、OPPO 等科技公司发表于ICCV 2021的一篇论文 Hand Image Understanding via Deep Multi-Task Learning 提出一个将多任务学习和自监督学习联合优化的框架 HIU-DMTL ,去解决以上问题。

二、方法

图片

HIU-DMTL的主要架构图

整个框架遵循经典的层级式的由粗到细的设计范式,主要包含两个主要部分:

1.一个多任务学习的骨干网络,主要用于估计2D 关键点的热度图、人手区域的分割Mask以及生成包含3D语义的POF编码;

2.基于上述多模态语义信息回归人手参数化模型MANO参数以及相机参数的回归器。

HIU-DMTL基于多任务学习充分利用已有的多模态数据达到人手图像理解的目的,即:从单张RGB图像实现人手重建、人手分割、人手2D关键点检测、人手3D关键点估计。在HIU-DMTL的骨干网络中,POF主要用于编码一部分3D信息,从而达到减少2D 到 3D 之间的domain gap的目的,POF的定义如下所示:

图片

为了减小人手重建的难度,与[2]类似,HIU-DMTL也基于回归MANO系数的方式来实现人手重建的目的。MANO 的是一个由人手pose参数( θ )和shape参数( β )控制的参数化模型,给定{ θ,β } 后,人手模型的表达由下式形式化的给出:

为了进一步提高算法的效果,HIU-DMTL遵循由粗粒度处理到细粒度处理的设计准则,具体来讲,HIU-DMTL包含多个结构相同的子模块,每个子模块不断的refine先前模块的输出结果,下图较好的刻画了该过程:

图片

HIU-DMTL的核心思想。即由粗粒度到细粒度地完成人手重建、人手分割、人手2D关键点检测、人手3D关键点估计。

此外HIU-DMTL提出任务聚合模块(Task Attention Module – TAM)用于融合不同任务之间的特征。从数学上讲,TAM可形式化为一个函数 n=2 时模块可视化如下所示:

图片

TAM模块示意图。TAM模块用于混合不同任务的语义特征,其中表示全局池化层表示全连接层。

更进一步的,HIU-DMTL提出基于自监督学习达到充分利用无标注的样本的目的。具体来讲,对于给定样本,各个任务的结果之间应该满足如下潜在的约束

· 关键点检测到的2D人手关键点应该与3D关键点在图像上的投影相同;

· 人手重建的结果经微分渲染模块后的结果应与分割分支的预测结果一致;

HIU-DMTL提出基于这些潜在约束的一个训练方式,以达到在训练过程中充分利用大量无标注样本的目的。

三、实验

泛化实验:

与先前的方法相比,HIU-DMTL的泛化性更好。

图片
并且HIU-DMTL在困难的场景下表现也还不错,
图片

量化实验:

HIU-DMTL与最新的方法相比,也完全不落后。得益于多任务学习和自监督学习,在一些评测指标上HIU-DMTL大幅领先于最新方法。

图片
消融实验(多任务学习策略):

实验表明在人手图像理解任务中,多任务实习策略能提升各子任务的性能,

图片

消融实验(由粗到细的学习方法):

实验表明由粗粒度到细粒度的方法对于人手图像理解是有益的。

图片

消融实验(任务聚合模块的效果):

各种实验设置均表明TAM模块能提升人手图像理解任务中各任务的性能。图片

消融实验(自监督学习方法):

实验表明,自监督学习对于提高算法的效果有着极为重要的作用,

图片
DEMO

图片

四、总结

随着VR等应用的兴起,人手交互相关的研究成为一个工业界和学术界的研究热点,但是人手相关的研究面临着数据模态不统一以及缺乏生产环境下的标注数据这两大难题。基于这些痛点,HIU-DMTL引入多任务学习和自监督学习极大的克服了这些问题,相信HIU-DMTL提出的方法论能用于解决其它领域类似的痛点难题。

参考文献:

[1]. Seungryul Baek, Kwang In Kim, and Tae-Kyun Kim. Pushing the envelope for rgb-based dense 3d hand pose estimation via neural rendering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019
[2]. Xiong Zhang, Qiang Li, Hong Mo, Wenbo Zhang, and Wen Zheng. End-to-end hand mesh recovery from a monocular rgb image. In Proceedings of the IEEE International Conference on Computer Vision, 2019.
[3]. Adnane Boukhayma, Rodrigo de Bem, and Philip HS Torr. 3d hand shape and pose from images in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2019.

[4]. Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, and Junsong Yuan. 3d hand shape and pose estimation from a single rgb image. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2019

Illustrastion by Tatiana Vinogradova from Icons8

-The End-

AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。



图片

> 投稿请添加工作人员微信!

图片

扫码观看

本周上新!

图片

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
将门创投
将门创投
将门是一家以技术创新为切入口的新型创投机构,由前微软创投在中国的创始团队于2015年底创立。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注技术领域包括机器智能物联网、自然人机交互企业计算
1294篇原创内容
公众号
图片    
点击右上角,把文章分享到朋友圈