ICCV 2021 | 悉尼大学&京东探索研究院提出：融合邻近帧的全帧视频稳定方法OVS

原创徐宇飞将门创投昨天

收录于话题

ICCV ,13

视频防抖 ,1

为了给拍摄的视频提供更好的观感，各个视频编辑工具或者拍摄工具或多或少的提供了视频防抖的功能。电子防抖（EIS）是其中一种方法

EIS的典型方法是首先估计不稳定和稳定视频之间的变换并基于该变换进行warping来达到防抖的目的。但是这类方法需要对视频进行裁剪来实现最终对画面的稳定效果，而这样的裁剪会影响最终视频的观感。为了减小画面的裁剪，来自悉尼大学和京东探索研究院的研究者提出一种即插即用的减小或者无需画面裁剪的视频稳定方法（OVS），来实现一种更好的视频稳定效果。

论文地址:

https://arxiv.org/abs/2108.09041

代码链接：

https://github.com/Annbless/OVS_Stabilization

左：不稳定，中：DUT，右：OVS

一、研究背景

给定一段抖动的视频，输出一段对应稳定的视频，这就是视频防抖的目标。衡量这个目标完成好坏的有三个经常使用的指标，首先是稳定度（stability），即稳定过后的视频有多么像是使用稳定设备拍摄出来的；其次是失真程度（distortion），即稳定之后的视频是不是还能比较好的保留视频中物体原来的形状，比如物体的长宽比；最后是保留区域的大小（cropping），这当然是尽可能保留原始视频的所有内容，不要造成内容损失。这三个指标都会对稳定后视频的观感产生很大的影响。之前的方法往往聚焦于提升前两个指标，即增强稳定性和减小失真，而忽略了对第三个指标的研究。本文则更多关注了第三个指标对视觉效果的影响，并设法提升最终稳定结果的第三个指标（cropping）。

具体来说，本文分析了现有的基于变换矩阵的方法受cropping困扰的原因：稳定的帧中的每一个像素是通过变换矩阵在不稳定的帧中进行查找得到的，然而不稳定帧往往难以提供足够的像素供给这个变换矩阵去查找，因此会导致像素的缺失；那这些缺失的像素是否就是无法补回的呢？研究人员发现，基于视频运动的连续性和一致性，这样的像素是可以通过邻近帧的信息进行补全的。通过设计基于邻近帧补全的变换模块，OVS有效地提升了基于变换的稳定方法的cropping指标并带来了更好的视觉效果。

二、防抖方法DUT概述

我们主要基于DUT进行了研究。DUT是一个基于深度学习方法和传统框架的视频稳定方法。

开源链接：

https://github.com/Annbless/DUTCode

该方法通过深度学习对视频各帧进行关键点检测和光流估计。但是估计出来的关键点有可能是不准确的，直接基于关键点对帧间运动进行估计有可能会引入大量的噪声。

为了缓解关键点估计不准确的影响，DUT利用运动的空间局部一致性来对不准确的关键点进行抑制，即对估计出的关键点和光流进行propagation来得到基于网格点的运动。这些基于网格点的运动形成的轨迹被进一步用于平滑来得到每个不稳定的轨迹和其对应的稳定轨迹，并计算出两个轨迹之间的偏移量。偏移量之后被用于估计不稳定视频帧到稳定视频帧之间的变换，并基于此对不稳定的视频帧进行warping，来得到最终的稳定视频。但是这样产生的视频是带有黑边的，这是因为某些需要用于warping的像素在当前帧是无法得到的。

举例来说，如果估计出的变换是当前的不稳定帧过于向下了，需要把它整体向上偏移10个像素，那么在稳定的视频的底部就会出现10个像素的黑边，这是由于这10个像素的内容没有办法在当前帧中找到。这也是目前所有基于warping的稳定方法产生黑边的原因。有没有什么办法来解决这个黑边问题呢？

三、方法原理

OVS的核心思想是通过邻近帧的信息去补全当前帧在防抖过程中缺失的信息，从而实现减小甚至无需裁剪的稳定效果。具体而言，OVS采取了先粗对齐再细对齐的方式（图（1））来对齐邻近帧和当前帧的信息。

图1 OVS采用的对齐方式

这样一个两阶段对齐的方法比较好的减弱了由于抖动造成的帧和帧之间的距离较大对对齐造成的困难。在粗对齐的过程中，OVS采用了基于网格的单应性矩阵估计的方法，来将周围的帧的信息粗略的和当前帧对齐。通过粗对齐，邻近帧和当前帧之间的距离变得比较小，这为第二阶段的细对齐创造了比较好的条件。

在细对齐的过程中，OVS首先估计了粗对齐的邻近帧和当前帧之间的光流。需要注意的是，这一步光流估计仅仅在邻近帧和当前帧共享的区域中进行估计；对于只在邻近帧中出现的区域，即当前帧中缺失的而防抖过程中需要的区域，研究人员提出通过运动的一致性进行估计，即通过估计像素之间的affinity矩阵，将共享区域的运动估计逐渐传播到只在邻近帧出现的区域，如图（2）所示。

图2 通过运动的一致性对缺失区域进行估计

需要注意的是，OVS在训练中无需使用成对的稳定-不稳定的视频作为groundTruth，而只需要不稳定的视频即可完成训练。具体来说，OVS通过对原始视频进行crop产生网络的输入，并将crop之前的视频作为对齐的帧的最终结果，以此进行网络的训练。

四、实验结果

我们在常用的NUS数据集上验证了提出的OVS方法的有效性。如表（1）所示，将OVS添加到基于变换矩阵的视频稳定器DUT，MeshFlow，PWStabNet，StabNet等方法上后，这些方法都得到了比较好的性能提升，尤其是cropping方面带来了较大的提升。

表（1）视频稳定器添加OVS后的性能表现

如图（3）所示，OVS在主观效果上也有比较大的提升。比起以往的全帧稳定方法DIFRINT，OVS取得了较小的失真和相当程度的内容保留（红圈表示出现了失真的地方）。

图3 添加OVS后的视频主观效果

此外，我们还针对使用邻近帧的数量进行了消融实验，以及对分别只使用粗对齐和细对齐阶段的效果进行了对比，如表（2）（3）所示，随着使用帧数的增多，稳定后的视频中保留的区域也在逐渐增多；同样，只使用粗对齐或者只使用细对齐也会造成最终稳定结果的下降。

表（2）使用OVS与只使用粗对齐或细对齐的效果对比

表（3）使用不同帧数的效果对比

五、总结

本文提出了一种即插即用的视频稳定方法，可以稳定提升现有基于变换矩阵的视频稳定方法的性能。OVS方法和多种主流的基于变换矩阵的视频稳定方法进行了结合，并在NUS数据集上取得了主观和客观指标的稳定提升，而这也说明了OVS方法的有效性。我们希望OVS方法可以为视频防抖的研究提供一个新的角度，即利用邻近帧的信息和基于变换矩阵的方法达到全帧的视频稳定效果。

‍

作者简介

徐宇飞，悉尼大学计算机学院二年级博士研究生，导师为陶大程教授，此前于中国科学技术大学取得本科学位，研究兴趣主要集中在计算机视觉中的视频感知和相关任务。技术交流欢迎联系yuxu7116@uni.sydney.edu.au；获取京东探索研究院实习机会欢迎联系chengyuanzhuang@jd.com。

Illustrastion by Dmitry Nikulnikov from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线330+期talk视频，900+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，

对用户启发更大的文章，做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。