视频中的运动特征--Learning Motion Patterns in Videos

最新推荐文章于 2024-12-08 22:23:04 发布

O天涯海阁O

最新推荐文章于 2024-12-08 22:23:04 发布

阅读量3k

点赞数 1

分类专栏：深度学习应用目标检测语义分割语义分割

本文链接：https://blog.csdn.net/zhangjunhit/article/details/77933439

版权

目标检测同时被 3 个专栏收录

59 篇文章

订阅专栏

语义分割

50 篇文章

订阅专栏

语义分割

49 篇文章

订阅专栏

本文介绍了一种通过CNN网络从视频中学习运动模式的方法，旨在从动态背景中准确分割出运动物体。该方法利用相邻帧之间的光流场作为输入，并采用合成数据集FlyingThings3D进行训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning Motion Patterns in Videos
CVPR2017
Torch code： http://thoth.inrialpes.fr/research/mpnet

本文要解决的问题是 determining whether an object is in motion, irrespective of camera motion，
注意这里的相机是可以运动的，如果相机不动，则问题比较简单。相机运动则问题就比较复杂了。

示意图如下：
这里写图片描述

人工合成的 FlyingThings3D dataset
这里写图片描述
相邻两帧图像，相机是运动的，有几个运动的物体，我们希望可以将运动的物体分割出来

3 Learning Motion Patterns

Our MP-Net takes the optical flow field corresponding to two consecutive frames of a video sequence as input, and produces per-pixel motion labels.
本文使用一个 CNN网络，输入相邻两帧图像的光流场，输出每个像素的运动与否标签

In other words, we treat each video as a sequence of frame pairs, and compute the labels independently for each pair.
我们每个图像对的计算是独立，将视频看作由每个图像对组成

3.1. Network architecture
我们的任务是将光流场中具有不同的运动模式区分出来，使用CNN网络完成。这需要一个大的感受野，输出的尺寸需要和输入的图像尺寸一样大小。一个大的感受野对于将 context 信息包含进模型中是至关重要的。小的感受野没法区分是物体的运动还是相机的运动。
这里写图片描述
网络的结果和语义分割中的结构还是很相似的，本质上是一样的。