Transformer必学哪些视觉？-CSDN博客

本文链接：https://blog.csdn.net/Java_rich/article/details/147348481

Transformer在视觉领域的必学知识和技术涉及模型架构、核心机制及应用方法，以下从基础结构、关键机制、优化策略及典型应用四方面展开分析：

一、Vision Transformer（ViT）基础结构

ViT将输入图像分割为固定大小的16×16像素块（如224×224图像分为196个块），每个块展平后通过线性投影层（嵌入矩阵）转换为向量。这种处理使图像具备类似文本序列的结构，便于Transformer处理。例如，ViT的嵌入层将每个16×16×3的块转换为768维向量（以ViT-Base为例）。

Transformer本身不具备空间位置感知能力，因此需引入可学习的位置编码。ViT通过将位置编码与块嵌入相加，使模型感知不同块的相对位置关系。实验表明，位置编码对分类准确率提升可达5-10%。

在嵌入序列前添加一个可学习的分类标记，其最终输出用于分类任务。该标记通过自注意力机制聚合全局信息，替代传统CNN的全局平均池化操作。

2025年Transformer必学：从零详解VIT、DETR、Loftr、BEVFormer、DeformableDetr一口气学爽

多头机制将Q、K、V拆分为多个子空间（如ViT-Base使用12头），分别计算注意力后拼接。这使模型同时关注不同层次的语义信息，例如局部纹理与全局形状。实验表明，多头注意力比单头性能提升约15%。

ViT的全局注意力计算复杂度为 𝑂 ( 𝑁 2 ) O(N 2 )（N为块数）。改进模型如Swin Transformer引入窗口划分与位移窗口机制，将复杂度降至线性级别，同时保持跨窗口信息交互能力。

传统ViT为单一尺度特征，而PVT（Pyramid Vision Transformer）等模型构建多级金字塔特征，适配检测、分割等任务。例如，PVTv2在ImageNet上达到83.8%准确率，较ViT提升2.3%。

结合CNN局部特征提取与Transformer全局建模的优势。如BoTNet在ResNet最后一层替换为自注意力，COCO目标检测mAP提升1.5%。

知识蒸馏：使用大型CNN（如ResNet）作为教师模型，指导ViT训练（DeiT模型在ImageNet上仅用1/10数据达到81.8%准确率）。动态令牌剪枝：减少冗余块的计算，如DynamicViT可减少30%计算量，精度仅下降0.4%

ViT在ImageNet上最高达90.45%准确率（ViT-Huge），但需在JFT-300M大规模数据集预训练。小数据场景下，DeiT通过数据增强和蒸馏达到83.1%。

DETR首次用Transformer实现端到端检测，无需NMS后处理。COCO数据集上mAP为42.0，但训练收敛慢。改进版Deformable DETR引入可变形注意力，mAP提升至48.5，训练速度加快10倍。

SETR将ViT作为编码器，结合CNN解码器实现语义分割。ADE20K数据集mIoU达50.3%，超越同期CNN模型4.2%。MaskFormer统一分割任务，通过查询机制预测类别和掩膜，全景分割PQ指标达57.8。

主流视觉Transformer模型性能对比

总结来看，掌握ViT基础架构、自注意力机制及层次化改进是核心，同时需熟悉其在检测、分割等任务中的变体。实际应用中需权衡模型规模、数据量与计算资源，选择适合的优化策略。