本文提出一种用于自然场景下交互式视频目标分割的框架,其中用户可以交互式地选择视频中的某些关键视频帧提供额外标注。分割算法基于这些用户标注,对分割结果进行优化。当前的交互式视频目标分割的关键帧选择方法,是通过计算某种分割结果的质量评价指标,选择最差的那一帧,而这要求提供所有视频帧的真实分割标注信息,从而在测试阶段不可行。与其相比,具有最差质量评价指标的那一帧,并不一定是对提升整体视频分割质量最有帮助的一帧。我们将交互式视频目标分割中的关键帧选择问题建模为一个马尔可夫决策过程,通过强化学习框架,让一个智能体学习如何推荐关键帧。完成学习的智能体可以自动判断出最有价值的视频关键帧,使得交互式视频目标分割在自然场景下更为可行。在公开数据集上的实验结果显示,经过学习的智能体可以在不对现有视频目标分割算法进行任何改变的前提下,有效地进行视频关键帧推荐。论文:Zhaoyuan Yin, Jia Zheng, Weixin Luo, Shenhan Qian, Hanling Zhang, and Shenghua Gao. Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild. In CVPR, 2021.论文链接:https://arxiv.org/abs/2103.10391在以下视频中,论文一作尹兆远对研究进行了分享,分享提纲如下: 1、交互式视频目标分割简介2、交互式视频目标中的关键帧推荐问题3、基于深度强化学习的关键帧推荐算法4、推荐算法在当前分割算法上的效果验证分享人姓名:尹兆远个人简介:尹兆远,湖南大学2017级博士生,导师张汗灵。2018至2019年作为访问学生前往上海科技大学高盛华课题组学习。主要研究方向为视频目标分割, 在CVPR2021上发表论文1篇。