概述
论文链接:点击查看PDF
作者主页:De-An Huang
论文主要目的:显式地用量化的方法来分析motion对于视频理解的作用有多大,在整个视频分析过程中起到了多大的效果。这也是我了解的第一篇用量化的方法来探讨motion信息的贡献的论文,文中逐类的分析motion带来的性能增益(图4)也是第一次见到。
这篇论文的出发点是分析在某个网络结构(例如C3D)上训练好的模型在对测试视频进行分类的时候,是否真正地用到了运动信息(motion),或者说运动信息真正起到了作用。一个简单的验证实验是在在测试视频中选一帧,然后重复N次构成一个clip(如在C3D中,N=16)。作者实验发现这种情况性能下降了25%。但这25%的性能下降不光是motion丢失带来的,作者认为这里还引入了另外两个问题:(1)改变了视频帧的时间上分布(temporal distribution),因为训练时使用的是16帧的clip,而测试采用采样过的帧构成的clip,训练和测试数据的分布不一致。(2)可能将视频中最重要的帧,对视频分类最有用的帧给丢掉了。
为了解决上面提到的两个问题,这篇论文提出了两个针对性的框架:首先是在低帧率(例如相比C3D中采用的16帧的clip,这里采用1帧的clip)的情况下,基于cycleGAN的类别无关(class-agnostic)的时域生成器(temporal generator, 英文不好,暂时这样翻译了,如果有更准确的翻译请告知)来生成帧,构成视频输入到训练好的网络中。为了使得训练收敛,作者采用了perceptual loss。第二个框架是运动不变(motion-invariant)的关键帧选择器,通过选择一个关键帧进行视频分类的任务。
具体实验是采用C3D模型,在UCF101和Kinetics这两个数据集上进行。通过使用作者提出的两个框架,使得在UCF101上,单帧clip相比16帧的clip的性能下降从25%减小到6%,在Kinetics上性能下降从15%减小到5%。同时作者用实验表明,40%的UCF101测试视频(split1)和35%的Kinetics测试视频不需要motion信息就能达到平均的分类性能。此外,在使用了作者提出的两个框架后,采用4帧的clip就能达到原来16帧的clip下的性能。至于引入的额外的计算开销作者在论文中没有进行讨论。