怎么全是重名-CSDN博客

原创 TransPose: Keypoint Localization via Transformer（ICCV2021）

虽然基于cnn的模型在人体姿势估计方面取得了显著进展，但它们捕获的空间依赖关系来定位关键点仍不清楚。在这项工作中，我们提出了一个名为转置的模型，该模型引入了用于人体姿态估计的Transformer。Transformer中内置的注意层使我们的模型能够有效地捕获远程关系，并且还可以揭示预测的关键点所依赖的依赖关系。为了预测关键点热图，最后一个注意层作为聚合器，收集图像线索的贡献，形成关键点的最大位置。这种通过Transformer基于热图的定位方法符合激活最大化[20]的原则。

2025-05-09 14:42:21 743

原创 VIT（ICLR2021）

虽然Transformer架构已经成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络一起应用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。对cnn的这种依赖是不必要的，直接应用于图像块序列的纯transformer可以在图像分类任务上表现很好。

2025-04-29 18:49:06 980

原创常见的梯度报错 one of the variables needed for gradient computation has been modified by an inplace operati

因为 PyTorch 的反向传播依赖Autograd 版本管理系统。当链式调用叠加、同时中间存在 in-place 或复杂操作时，很容易造成“旧版本被新版本覆盖”，反向传播时就爆炸。拆分操作 → 保证每一步显式可追踪。+= 以及其余连续操作全拆开即可。

2025-04-15 10:14:13 127

原创 VPN（2020）Cross-view Semantic Segmentation for Sensing Surroundings

感知环境在人类空间感知中起着至关重要的作用，它从观察中提取物体的空间形态以及自由空间。为了使机器人具有这种周围感知能力，我们引入了一种新的视觉任务，称为跨视图语义分割，以及一个名为视图解析网络（VPN）的框架来解决它。在跨视图语义分割任务中，训练智能体将第一视图的观察结果解析成一个自上而下的语义图，该图在像素级上指示所有对象的空间位置。这项任务的主要问题是我们缺乏对自顶向下视图数据的真实注释。为了解决这个问题，我们在3D图形环境中训练VPN，并利用域适应技术将其传输到处理现实世界的数据。

2025-04-06 09:25:23 1073

原创 Pseduo LiDAR（CVPR2019）

三维目标检测是自动驾驶中的一项重要任务。如果3D输入数据是从精确但昂贵的激光雷达技术获得的，那么最新的技术具有高精度的检测率。到目前为止，基于更便宜的单眼或立体图像数据的方法导致精度大大降低——这一差距通常归因于基于图像的深度估计不佳。然而，在本文中，我们认为这不是数据的质量，而是它的表示，占大部分的差异。考虑到卷积神经网络的内部工作原理，我们建议将基于图像的深度图转换为伪激光雷达表示-本质上模仿激光雷达信号。利用这种表示，我们可以应用不同的现有的基于激光雷达的检测算法。

2025-04-05 21:05:06 825

原创 OFP--2018

事实证明，从单眼图像中检测3D物体是一项极具挑战性的任务，目前领先的系统的性能甚至还达不到基于激光雷达的同类系统的10%。对这种性能差距的一种解释是，现有的系统完全受基于透视图像的表示的支配，其中物体的外观和规模随着深度和有意义的距离而急剧变化，很难推断。在这项工作中，我们认为对3D世界进行推理的能力是3D物体检测任务的基本要素。为此**，我们引入了正交特征变换，它使我们能够通过将基于图像的特征映射到正交三维空间来逃避图像域**。

2025-04-05 20:39:36 763

原创 BEVHeight(CVPR2023)：A Robust Framework for Vision-based Roadside 3D Object Detection

虽然最近的自动驾驶系统专注于开发基于自我车辆传感器的感知方法，但人们往往忽略了利用智能路边摄像头将感知能力扩展到视觉范围之外的另一种方法。我们发现最先进的以视觉为中心的鸟瞰图检测方法在路边摄像头上的性能较差。这是因为这些方法主要集中在相机中心的深度恢复上，随着距离的增加，车与地面的深度差会迅速缩小。在本文中，我们提出了一种简单而有效的方法，称为BEVHeight，来解决这个问题。从本质上讲，我们不是预测像素深度，而是将高度回归到地面，以实现距离不可知的公式，以简化仅相机感知方法的优化过程。

2025-04-05 15:55:42 842

原创 BEVFormer v2(CVPR2023)

作者提出了一种具有视角监督的新型鸟瞰（BEV）检测器，该检测器收敛速度更快，更适合现代图像主干。现有的最先进的BEV检测器通常与VoVNet等深度预训练的主干相关联，阻碍了蓬勃发展的图像主干与BEV检测器之间的协同作用。为了解决这一限制，我们优先考虑通过引入透视视图监督来简化BEV检测器的优化。为此，我们提出了一种两阶段的BEV探测器，其中来自视角头部的建议被馈送到鸟瞰头部以进行最终预测。为了评估我们的模型的有效性，我们进行了广泛的消融研究，重点是监督的形式和提议的检测器的一般性。

2025-04-05 13:56:30 1050

原创 Social GAN（CVPR2018)

理解人类的运动行为对于自主移动平台（如自动驾驶汽车和社交机器人）来说是至关重要的，如果它们要在以人为中心的环境中导航的话。这是具有挑战性的，因为人类的运动本质上是多模态的：考虑到人类运动路径的历史，有许多社会上合理的方式，人们可以在未来移动。我们通过结合序列预测和生成对抗网络的工具来解决这个问题：一个循环的序列到序列模型-服务于运动历史并预测未来行为，使用新的池化机制来聚合人们之间的信息。我们预测社会合理的未来，通过训练和普遍反对一个循环的鉴别器，并鼓励多样化的预测与一个新的多样性损失。

2025-04-05 10:34:14 842

原创 RuntimeError: one of the variables needed for gradient computation has been modified by an inplace

一般都是使用了+=、-=、/=类的操作比如a+=b，改为 a = a+b即可可使用 torch.autograd.set_detect_anomaly(True) 来帮助定位具体哪个操作导致了问题

2025-03-13 09:25:20 205

原创服务器按照python包出现证书不匹配错误

【代码】服务器按照python包出现证书不匹配错误。

2025-03-10 14:37:39 164

原创 Decoupled Contrastive Learning for Long-Tailed Recognition

有监督对比损失（SCL）在视觉表征学习中非常流行。给定一个锚点图像，SCL将两种类型的正样本（即其增强图像和来自同一类的其他图像）拉到一起，同时将负图像分开，以优化学习嵌入。在长尾识别的场景中，每一类样本的数量是不平衡的，平等地对待两类正样本会导致对类别内距离的偏置优化。此外，负样本间的相似关系虽然被SCL忽略，但也提供了有意义的语义线索。为了提高长尾识别的性能，本文通过解耦训练目标来解决长尾识别中的这两个问题。

2024-11-20 18:46:24 860

原创 ImportError: cannot import name ‘print_log‘ from ‘logging‘

mmcv升级到2.+后。

2024-09-08 12:08:21 659

原创 ModuleNotFoundError: No module named ‘mmcv.transforms‘

升级后自然又面临一系列不兼容问题！mmcv升级到2.0.0即可解决。

2024-09-08 11:56:24 825

原创 DNTR——F

由于图像数据中微小物体所占像素比例很小，因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域，高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。特征金字塔网络中的特征融合对于多尺度目标的检测至关重要。但是，由于不同尺度的特征之间没有正则化，在融合过程中可能会产生噪声特征。因此，作者提出了一个新的框架DNTR，它由DeNoising FPN模块和Trans R-CNN检测器组成。

2024-08-08 11:13:47 1289

原创 SimD_F

由于微小目标的大小和信息的缺乏，微小目标检测已成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。虽然有一些针对微小物体的有效的标签分配策略，但它们大多侧重于降低对边界框的敏感性以增加阳性样本的数量，并且需要设置一些固定的超参数。然而，更多的阳性样本并不一定意味着更好的检测结果，事实上，过多的阳性样本可能会导致更多的假阳性。在本文中，作者引入了一种简单而有效的策略——相似距离(SimD)来评估边界框之间的相似度。

2024-08-06 15:21:34 1189

原创 SRTOD——F

微小目标检测是目标检测领域的关键问题之一。大多数通用检测器的性能在微小目标检测任务中显著下降。主要的挑战在于如何提取微小物体的有效特征。现有的方法通常是基于生成的特征增强，这种方法受到虚假纹理和伪影的严重影响，难以使微小物体的特征清晰可见，便于检测。作者提出了一种自重构微小目标检测(SR-TOD)框架，有效缓解了信息丢失问题。作者首次在检测模型中引入了自重构机制，并发现了自重构机制与微小目标之间的强相关性。

2024-08-06 15:21:04 1277 2

原创 DotD_F

随着基于锚点和无锚点检测器的发展，目标检测取得了很大的进步。然而，由于缺乏外观信息，微小物体的检测仍然具有挑战性。在本文中，作者观察到在目标检测中最广泛使用的度量IoU (Intersection over Union)在检测微小目标时对预测边界框与地面真值之间的轻微偏差很敏感。虽然提出了一些新的指标，如GIoU、DIoU和CIoU，但它们在微小目标检测上的性能仍然远远低于预期水平。

2024-08-06 15:20:38 1066

原创 ADAS-GPM

微小目标检测最近的一个趋势是引入更细粒度的标签分配策略，为分类和回归提供有希望的监督信息。然而，以往大多数基于IoU (intersection - overunion)的方法存在两个主要缺陷，包括:(1)IoU对微小目标边界盒偏差的容忍度较低;(2)样本间和样本内失衡导致的优化指导不足。基于高斯概率分布的模糊相似度度量（GPM）和自适应动态锚点挖掘策略（ADAS）。GPM旨在解决小边界框与预设锚点之间不准确的相似度测量问题，为标签分配提供更准确的基础。

2024-08-06 15:18:47 1266

原创 DetectorRS

本文介绍了一种新的对象检测器——DetectoRS，通过在骨干网络设计中引入递归特征金字塔和可切换的空洞卷积机制，实现了出色的性能提升。在宏观层面，递归特征金字塔将额外的反馈连接添加到底部向上传播的骨干层中；在微观层面，可切换的空洞卷积通过不同的空洞率对特征进行卷积，并使用开关函数收集结果。实验结果显示，在COCO测试集中，DetectoRS取得了最先进的55.7%的边界框AP、48.5%的实例分割AP和50.0%的全景分割PQ。

2024-07-26 14:34:47 471

原创 SimD~

本文介绍了一种名为相似性距离（SimD）的简单而有效的标签分配策略，用于解决小目标检测中的挑战问题。传统的IoU和NMS方法存在一些固定超参数需要设置的问题，而且过多的正样本并不一定能提高检测结果的准确性。因此，本文提出的SimD策略不仅考虑了位置和形状相似度，还能够自适应地学习超参数，适用于不同数据集和各种对象大小的情况。实验结果表明，在四个主流的小目标检测数据集上，该方法的表现优于现有的最佳竞争对手，并且在AI-TOD数据集上的表现特别突出，达到了1.8 AP点和4.1 AP点的提升。

2024-07-26 14:21:04 1069

原创 DNTRo

本文旨在解决计算机视觉领域中微小物体检测的问题。由于图像数据中微小物体所占像素比例很小，因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域，高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。为此，作者提出了一个新的框架DNTR，它由DeNoising FPN模块和Trans R-CNN检测器组成。DN-FPN模块利用对比学习抑制FPN上每个级别的特征中的噪声，并在Top-down路径中融合不同尺度的特征。

2024-07-26 14:10:59 844

原创 SRTOD

本文主要探讨了在目标检测领域中，如何解决微小物体检测的问题。传统的通用检测器在处理微小物体时性能下降严重，主要是因为难以提取有效的特征。为了解决这个问题，作者提出了一个自我重建的微小物体检测框架（SR-TOD），并在检测模型中引入了一个自我重建机制。通过构建输入图像和重建图像之间的差异图，可以提高微小物体的可见性和清晰度，并增强弱表示以改善检测器的性能。此外，作者还开发了一种基于差异图引导的特征增强模块（DGFE）来进一步提升微小特征的清晰度。

2024-07-26 13:56:35 769

原创 Robust Tiny Object Detection in Aerial Images amidst Label Noise

精确检测遥感图像中的小目标非常困难，因为这类目标视觉信息有限且在场景中频繁出现。此外，手动标注这些小目标不仅费时费力，还容易出错，即产生标签噪声。当使用带有噪声标签的训练集训练检测器时，网络往往倾向于过度拟合错误标签，导致性能不佳。为了解决这一问题，作者提出了DeNoising Tiny Object Detector（DN-TOD）。该方法包含两个关键组成部分：Class-aware Label Correction（CLC）和Trend-guided Learning Strategy（TLS）。

2024-06-10 09:30:38 1031

yolo系列论文解读11

Perseus 软件体系结构顶会，fast2023最佳两篇论文之一

CVPR2023FasterNet讲解

空空如也