Reducing the Dimensionality of Data with Neural Networks, Hinton et al., 2006, science.
摘要 作者提出用 auto encoder 实现降维, 性能远超 pca. 作者同时发现 deep auto encoder network 非常依赖 effective initialization.
背景 AutoEncoder 基本理论 (高维-低微-高维, 重构输入), AutoEncoder 不易用梯度训练, 需要较好的预训练做为初始化.
RBM 二值两层神经网络, 最小化能量函数 (最大化联合概率).
逐层 RBM activation 预训练
data | hidden | visible | activation |
---|---|---|---|
original binary | binary | binary | stochastic |
continuous | binary | gaussian | logistic |
前一次的 hidden 激活之后作为下一层的 visible.
预训练必要性
未经预训练, deep auto encoder network 倾向于学到训练数据的平均值, shallow auto encoder network 需要更长的训练时间.
MNIST 上, SVM 错误率 1.4%, 随机初始化前馈全连接神经网络错误率 1.6%, 预训练前馈全连接神经网络错误率 1.2%, 预训练有助于泛化. 标签信息仅用作微调.
数据集
2 维平面上 3 点之间二次曲线段 (图像)
内在维度 6 (二次曲线贡献 3 个内在维度, 坐标系旋转贡献 1 个内在维度, 起始位置贡献 2 个内在维度)
(恰好等于用于生成样例的信息的维度, 3 个点的 2 维坐标)
像素取值 [0,1], 严重偏离高斯分布, 因此采用交叉熵损失.
− ∑