CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%。由于每年的 CVPR 全部论文以及相关细节都需要等到六月会议召开才会正式公布,在这之前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 最新论文进行追踪,包括分研究方向的论文、代码汇总以及论文技术直播分享。
CVPR 2022 论文分方向整理会在极市社区进行更新,项目地址:https://bbs.cvmart.net/articles/6124
以下是最新更新的 CVPR 2022 论文一览,包括的研究方向有:神经网络架构设计、异常检测、三维视觉、姿态估计、图像修复、模型训练、视觉语言表征学习、对比学习、深度估计、语义分割、动作检测、人脸防伪、长尾识别。
打包下载地址:
CVPR 2022 今日论文速递(22 篇打包下载)涵盖网络架构设计、姿态估计、三维视觉、动作检测、语义分割等方向
神经网络架构设计
[1] An Image Patch is a Wave: Quantum Inspired Vision MLP(量子启发的视觉 MLP)
paper:https://arxiv.org/abs/2111.12294
code1:https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
code2:https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp
在CV领域的最近工作表明,主要由全连接层堆叠的纯 MLP 架构可以实现与 CNN 和 Transformer 竞争的性能。视觉 MLP 的输入图像通常被拆分为多个tokens,而现有的 MLP 模型直接将它们以固定的权重聚合,忽略了来自不同图像的tokens的变化语义信息。为了动态聚合tokens,本文建议将每个token表示为具有振幅和相位两部分的波函数。基于类波token表示,本文为视觉任务建立了一种新颖的 Wave-MLP 架构。大量实验表明,在图像分类、对象检测和语义分割等各种视觉任务上,所提出的 Wave-MLP 优于最先进的 MLP 架构。
【2】 A ConvNet for the 2020s
paper:https://arxiv.org/abs/2201.03545
code:https://github.com/facebookresearch/ConvNeXt
详细解读:“文艺复兴” ConvNet卷土重来,压过Transformer!FAIR重新设计纯卷积新架构
这项工作重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。本文逐渐将标准 ResNet “现代化”为视觉 Transformer 的设计,并在此过程中发现了导致性能差异的几个关键组件。这一探索的结果是一系列纯 ConvNet 模型,称为 ConvNeXt。ConvNeXts 完全由标准 ConvNet 模块构建,在准确性和可扩展性方面与 Transformer 竞争,实现 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformers,同时保持标准 ConvNet 的简单性和效率。
【3】Mobile-Former: Bridging MobileNet and Transformer(连接 MobileNet 和 Transformer)
paper:https://arxiv.org/abs/2108.05895
Mobile-Former是一种 MobileNet 和 Transformer 的并行设计,中间有一个双向桥,这种结构利用了 MobileNet 在本地处理和全局交互中的 Transformer 的优势,同时可以实现局部和全局特征的双向融合。
Mobile-Former 中的 Transformer 包含 token 非常少( 6 个或更少),并随机初始化这些 token 来学习全局先验,从而降低计算成本。结合提出的轻量级交叉注意力对桥梁进行建模,Mobile-Former 不仅计算效率高,而且具有更强的表示能力。它在低 FLOP 状态下性能优于 MobileNetV3。此外,通过用 Mobile-Former 替换 DETR 中的主干、编码器和解码器来构建的检测器性能优于 DETR 1.1 AP,但节省了 52% 的计算成本和 36% 的参数。