PredCNN: Predictive Learning with Cascade Convolutions
1. 背景
这是一篇发表在IJCAI2018上的文章,同我们先前介绍的PredRNN一样都出自清华大学的同一团队。其所要解决的问题依旧是视频预测问题(或者说只要数据格式满足frames-like都行)。作者认为,传统的RNN模型在训练速度上慢,且由于传统RNN的连接方式(过长的时序依赖)导致多层RNN容易出现梯度消失问题;而CNN架构的模型也不能有效的捕捉到连续帧之间的时间依赖关系。基于这样的原因,作者提出了结合CMU单元的PredCNN网络结构。值得一提的是,作者在解决这类问题时并没有像其它解决方案一样通过对数据不同间隔的采样,来拟合数据的周期规律性;而仅仅是利用当前帧的前4帧作为输入,通过PredCNN网络来预测下一帧(也可以预测多帧),同时还达到了不错的效果,真可谓是意想不到。
在该论文中,作者通过对已有CNN单元的组合设计了新的CMU单元;同时还采用了类似WaveNet的网络连接方式。下面,首先来介绍一下构成整个网络所需要的基本单元。
1.1 MU 和 RMU
Multiplicative Unit (MU)和 Residual Multiplicative Block (