神经网络梯度下降优化算法及初始化方法小结

本文链接：https://blog.csdn.net/bea_tree/article/details/78185585

An overview of gradient descent optimization algorithms and Weight initialization methods.

神经网络重要的一点就是调参炼丹，这里复习一下网络的初始化方法及优化方法。
~~然而知道这些并没有什么用，平时多实验才是王道~~

网络优化方法
- 1 SGD
- 2 Momentum
- 3 Nesterov
- 4 Adagrad
- 5 Adadelta
- 6 RMSprop
- 7 Adam
- 8 AdaMax
- 9 Nadam
网络初始化方法

1 网络优化方法

这里主要说明一些关于梯度下降的方法，梯度下降顾名思义就是按照梯度来更新参数

优化方法有很多，caffe中支持下面几种：

SGD stochastic gradient descent
AdaDelta
Adam
Nesterov
RMSProp

这里我们会结合其他课程或者博客比如 cs231n或者 https://arxiv.org/pdf/1609.04747.pdf

1.1 SGD

梯度下降的方法有很多
其中用全部数据来进行梯度下降的称为Batch Gradient Descent，这种方法的缺点是更新慢而且内存需求大
其优化方式可以看为：

params = params - learning_rate * params_grad

显然上面的数据使用方法不适合大数据的使用，于是可以每次只取一个或者一部分样本进行训练，现在我们常用是Mini Batch Gradient Descent 但是下文仍然称为SGD，SGD有些时候是用来描述每次只取一个样本的方法，Mini Batch Gradient Descent 比起每次随机取一个样本的方法训练波动更小，更加稳定，更加高效，这基本上是最常用的一种优化方法，虽然没有很多技巧但是比较稳定

1.2 Momentum

其更新公式如下：

v t = γ v t - 1 + η \nabla θ J (θ)

$v_t = \gamma v_{t-1} + \eta \nabla_\theta J( \theta)$

θ = θ - v t

$\theta = \theta - v_t$

sgd的公式可以看为

θ = θ - η \nabla θ J (θ)

$\theta = \theta - \eta \nabla_\theta J( \theta)$
可以看出momentum考虑了之前一次更新，如果每次更新方向一致，那么其更新的速度会越来越快，如果方向改变，则会降低更新速度，eta可以看成摩擦因子一样的因子，相比sgd，理论上momentum可以减少动荡，加快收敛