Learning Motion Patterns in Videos
CVPR2017
Torch code: http://thoth.inrialpes.fr/research/mpnet
本文要解决的问题是 determining whether an object is in motion, irrespective of camera motion,
注意这里的相机是可以运动的,如果相机不动,则问题比较简单。相机运动则问题就比较复杂了。
示意图如下:
人工合成的 FlyingThings3D dataset
相邻两帧图像,相机是运动的,有几个运动的物体,我们希望可以将运动的物体分割出来
3 Learning Motion Patterns
Our MP-Net takes the optical flow field corresponding to two consecutive frames of a video sequence as input, and produces per-pixel motion labels.
本文使用一个 CNN网络,输入相邻两帧图像的 光流场,输出每个像素的运动与否标签
In other words, we treat each video as a sequence of frame pairs, and compute the labels independently for each pair.
我们每个图像对的计算是独立,将视频看作由每个图像对组成
3.1. Network architecture
我们的任务是将光流场中具有不同的运动模式区分出来,使用CNN网络完成。这需要一个大的感受野,输出的尺寸需要和输入的图像尺寸一样大小。一个大的感受野对于将 context 信息包含进模型中是至关重要的。小的感受野没法区分是物体的运动还是相机的运动。
网络的结果和语义分割中的结构还是很相似的,本质上是一样的。
3.2. Training with synthetic data
我们使用合成的数据库 FlyingThings3D dataset 来训练CNN网络
4.2. Refining the segmentation
We use a fully-connected CRF 后续处理分割结果
不同的输入信息
不同的组合
DAVIS上的比拼
BMS-26