李沐精读论文：MAE 《Masked Autoencoders Are Scalable Vision Learners》

最新推荐文章于 2025-04-28 20:54:52 发布

iwill323

最新推荐文章于 2025-04-28 20:54:52 发布

阅读量5k

点赞数 1

分类专栏：李沐读论文文章标签：人工智能深度学习计算机视觉 transformer

本文链接：https://blog.csdn.net/iwill323/article/details/128393710

版权

本文详细介绍了论文《Masked Autoencoders Are Scalable Vision Learners》，该研究将BERT的掩码自编码器概念应用于计算机视觉，通过在Vision Transformer上进行自监督学习，仅使用少量数据即可达到与有标签训练相当的效果。通过高掩码率和非对称的编码-解码架构，MAE展示了在图像重构和多种下游任务上的优秀性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Masked Autoencoders Are Scalable Vision Learners

别再无聊地吹捧了，一起来动手实现 MAE(Masked Autoencoders Are Scalable Vision Learners) 玩玩吧！ - 知乎

参考博文：MAE 论文逐段精读【论文精读】 - 哔哩哔哩

神洛华的博客

本文是2021.11.11发布在Arxiv上的文章，主要工作是在Vision Transformer基础上，引入自监督训练，跟BERT一样通过完形填空来获取对于图片的理解，相当于将BERT应用到CV领域，把整个训练拓展到没有标号的数据上面。最终MAE只需要Vision Transformer百分之一规模的数据集上预训练，就能达到同样的效果。而且在目标检测、实例分割、语义分割等任务上，效果都很好。

1 标题

masked autoencoder are scalable vision learners：带掩码的自编码器是一个可拓展的视觉学习器

scalable：可拓展的
vision learner：这里没有写成classifier或者其他的东西，因为它能够用到的地方相对广一些，他是一个backbone模型
masked：masked来源于BERT，每次挖掉一些东西然后去预测被挖掉的东西
autoencoder：这里的auto不是自动的意思，而是“自”的意思，标号和样本（y和x）来自于同一个东西。在NLP中，大家都是可以理解的，但是在计算机视觉中，图片的标号很少来自图片本身，所以作者在这里加上了auto，意在指出和计算机视觉中其他的encoder相比，这里的标号也就是图片本身，这样能跟之前的很多工作区分开来