- 博客(217)
- 收藏
- 关注
原创 TransPose: Keypoint Localization via Transformer(ICCV2021)
虽然基于cnn的模型在人体姿势估计方面取得了显著进展,但它们捕获的空间依赖关系来定位关键点仍不清楚。在这项工作中,我们提出了一个名为转置的模型,该模型引入了用于人体姿态估计的Transformer。Transformer中内置的注意层使我们的模型能够有效地捕获远程关系,并且还可以揭示预测的关键点所依赖的依赖关系。为了预测关键点热图,最后一个注意层作为聚合器,收集图像线索的贡献,形成关键点的最大位置。这种通过Transformer基于热图的定位方法符合激活最大化[20]的原则。
2025-05-09 14:42:21
743
原创 VIT(ICLR2021)
虽然Transformer架构已经成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络一起应用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。对cnn的这种依赖是不必要的,直接应用于图像块序列的纯transformer可以在图像分类任务上表现很好。
2025-04-29 18:49:06
980
原创 常见的梯度报错 one of the variables needed for gradient computation has been modified by an inplace operati
因为 PyTorch 的反向传播依赖Autograd 版本管理系统。当链式调用叠加、同时中间存在 in-place 或复杂操作时,很容易造成“旧版本被新版本覆盖”,反向传播时就爆炸。拆分操作 → 保证每一步显式可追踪。+= 以及其余连续操作全拆开即可。
2025-04-15 10:14:13
127
原创 VPN(2020)Cross-view Semantic Segmentation for Sensing Surroundings
感知环境在人类空间感知中起着至关重要的作用,它从观察中提取物体的空间形态以及自由空间。为了使机器人具有这种周围感知能力,我们引入了一种新的视觉任务,称为跨视图语义分割,以及一个名为视图解析网络(VPN)的框架来解决它。在跨视图语义分割任务中,训练智能体将第一视图的观察结果解析成一个自上而下的语义图,该图在像素级上指示所有对象的空间位置。这项任务的主要问题是我们缺乏对自顶向下视图数据的真实注释。为了解决这个问题,我们在3D图形环境中训练VPN,并利用域适应技术将其传输到处理现实世界的数据。
2025-04-06 09:25:23
1073
原创 Pseduo LiDAR(CVPR2019)
三维目标检测是自动驾驶中的一项重要任务。如果3D输入数据是从精确但昂贵的激光雷达技术获得的,那么最新的技术具有高精度的检测率。到目前为止,基于更便宜的单眼或立体图像数据的方法导致精度大大降低——这一差距通常归因于基于图像的深度估计不佳。然而,在本文中,我们认为这不是数据的质量,而是它的表示,占大部分的差异。考虑到卷积神经网络的内部工作原理,我们建议将基于图像的深度图转换为伪激光雷达表示-本质上模仿激光雷达信号。利用这种表示,我们可以应用不同的现有的基于激光雷达的检测算法。
2025-04-05 21:05:06
825
原创 OFP--2018
事实证明,从单眼图像中检测3D物体是一项极具挑战性的任务,目前领先的系统的性能甚至还达不到基于激光雷达的同类系统的10%。对这种性能差距的一种解释是,现有的系统完全受基于透视图像的表示的支配,其中物体的外观和规模随着深度和有意义的距离而急剧变化,很难推断。在这项工作中,我们认为对3D世界进行推理的能力是3D物体检测任务的基本要素。为此**,我们引入了正交特征变换,它使我们能够通过将基于图像的特征映射到正交三维空间来逃避图像域**。
2025-04-05 20:39:36
763
原创 BEVHeight(CVPR2023):A Robust Framework for Vision-based Roadside 3D Object Detection
虽然最近的自动驾驶系统专注于开发基于自我车辆传感器的感知方法,但人们往往忽略了利用智能路边摄像头将感知能力扩展到视觉范围之外的另一种方法。我们发现最先进的以视觉为中心的鸟瞰图检测方法在路边摄像头上的性能较差。这是因为这些方法主要集中在相机中心的深度恢复上,随着距离的增加,车与地面的深度差会迅速缩小。在本文中,我们提出了一种简单而有效的方法,称为BEVHeight,来解决这个问题。从本质上讲,我们不是预测像素深度,而是将高度回归到地面,以实现距离不可知的公式,以简化仅相机感知方法的优化过程。
2025-04-05 15:55:42
842
原创 BEVFormer v2(CVPR2023)
作者提出了一种具有视角监督的新型鸟瞰(BEV)检测器,该检测器收敛速度更快,更适合现代图像主干。现有的最先进的BEV检测器通常与VoVNet等深度预训练的主干相关联,阻碍了蓬勃发展的图像主干与BEV检测器之间的协同作用。为了解决这一限制,我们优先考虑通过引入透视视图监督来简化BEV检测器的优化。为此,我们提出了一种两阶段的BEV探测器,其中来自视角头部的建议被馈送到鸟瞰头部以进行最终预测。为了评估我们的模型的有效性,我们进行了广泛的消融研究,重点是监督的形式和提议的检测器的一般性。
2025-04-05 13:56:30
1050
原创 Social GAN(CVPR2018)
理解人类的运动行为对于自主移动平台(如自动驾驶汽车和社交机器人)来说是至关重要的,如果它们要在以人为中心的环境中导航的话。这是具有挑战性的,因为人类的运动本质上是多模态的:考虑到人类运动路径的历史,有许多社会上合理的方式,人们可以在未来移动。我们通过结合序列预测和生成对抗网络的工具来解决这个问题:一个循环的序列到序列模型-服务于运动历史并预测未来行为,使用新的池化机制来聚合人们之间的信息。我们预测社会合理的未来,通过训练和普遍反对一个循环的鉴别器,并鼓励多样化的预测与一个新的多样性损失。
2025-04-05 10:34:14
842
原创 RuntimeError: one of the variables needed for gradient computation has been modified by an inplace
一般都是使用了+=、-=、/=类的操作比如a+=b,改为 a = a+b即可可使用 torch.autograd.set_detect_anomaly(True) 来帮助定位具体哪个操作导致了问题
2025-03-13 09:25:20
205
原创 Decoupled Contrastive Learning for Long-Tailed Recognition
有监督对比损失(SCL)在视觉表征学习中非常流行。给定一个锚点图像,SCL将两种类型的正样本(即其增强图像和来自同一类的其他图像)拉到一起,同时将负图像分开,以优化学习嵌入。在长尾识别的场景中,每一类样本的数量是不平衡的,平等地对待两类正样本会导致对类别内距离的偏置优化。此外,负样本间的相似关系虽然被SCL忽略,但也提供了有意义的语义线索。为了提高长尾识别的性能,本文通过解耦训练目标来解决长尾识别中的这两个问题。
2024-11-20 18:46:24
860
原创 ModuleNotFoundError: No module named ‘mmcv.transforms‘
升级后自然又面临一系列不兼容问题!mmcv升级到2.0.0即可解决。
2024-09-08 11:56:24
825
原创 DNTR——F
由于图像数据中微小物体所占像素比例很小,因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域,高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。特征金字塔网络中的特征融合对于多尺度目标的检测至关重要。但是,由于不同尺度的特征之间没有正则化,在融合过程中可能会产生噪声特征。因此,作者提出了一个新的框架DNTR,它由DeNoising FPN模块和Trans R-CNN检测器组成。
2024-08-08 11:13:47
1289
原创 SimD_F
由于微小目标的大小和信息的缺乏,微小目标检测已成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。虽然有一些针对微小物体的有效的标签分配策略,但它们大多侧重于降低对边界框的敏感性以增加阳性样本的数量,并且需要设置一些固定的超参数。然而,更多的阳性样本并不一定意味着更好的检测结果,事实上,过多的阳性样本可能会导致更多的假阳性。在本文中,作者引入了一种简单而有效的策略——相似距离(SimD)来评估边界框之间的相似度。
2024-08-06 15:21:34
1189
原创 SRTOD——F
微小目标检测是目标检测领域的关键问题之一。大多数通用检测器的性能在微小目标检测任务中显著下降。主要的挑战在于如何提取微小物体的有效特征。现有的方法通常是基于生成的特征增强,这种方法受到虚假纹理和伪影的严重影响,难以使微小物体的特征清晰可见,便于检测。作者提出了一种自重构微小目标检测(SR-TOD)框架,有效缓解了信息丢失问题。作者首次在检测模型中引入了自重构机制,并发现了自重构机制与微小目标之间的强相关性。
2024-08-06 15:21:04
1277
2
原创 DotD_F
随着基于锚点和无锚点检测器的发展,目标检测取得了很大的进步。然而,由于缺乏外观信息,微小物体的检测仍然具有挑战性。在本文中,作者观察到在目标检测中最广泛使用的度量IoU (Intersection over Union)在检测微小目标时对预测边界框与地面真值之间的轻微偏差很敏感。虽然提出了一些新的指标,如GIoU、DIoU和CIoU,但它们在微小目标检测上的性能仍然远远低于预期水平。
2024-08-06 15:20:38
1066
原创 ADAS-GPM
微小目标检测最近的一个趋势是引入更细粒度的标签分配策略,为分类和回归提供有希望的监督信息。然而,以往大多数基于IoU (intersection - overunion)的方法存在两个主要缺陷,包括:(1)IoU对微小目标边界盒偏差的容忍度较低;(2)样本间和样本内失衡导致的优化指导不足。基于高斯概率分布的模糊相似度度量(GPM)和自适应动态锚点挖掘策略(ADAS)。GPM旨在解决小边界框与预设锚点之间不准确的相似度测量问题,为标签分配提供更准确的基础。
2024-08-06 15:18:47
1266
原创 DetectorRS
本文介绍了一种新的对象检测器——DetectoRS,通过在骨干网络设计中引入递归特征金字塔和可切换的空洞卷积机制,实现了出色的性能提升。在宏观层面,递归特征金字塔将额外的反馈连接添加到底部向上传播的骨干层中;在微观层面,可切换的空洞卷积通过不同的空洞率对特征进行卷积,并使用开关函数收集结果。实验结果显示,在COCO测试集中,DetectoRS取得了最先进的55.7%的边界框AP、48.5%的实例分割AP和50.0%的全景分割PQ。
2024-07-26 14:34:47
471
原创 SimD~
本文介绍了一种名为相似性距离(SimD)的简单而有效的标签分配策略,用于解决小目标检测中的挑战问题。传统的IoU和NMS方法存在一些固定超参数需要设置的问题,而且过多的正样本并不一定能提高检测结果的准确性。因此,本文提出的SimD策略不仅考虑了位置和形状相似度,还能够自适应地学习超参数,适用于不同数据集和各种对象大小的情况。实验结果表明,在四个主流的小目标检测数据集上,该方法的表现优于现有的最佳竞争对手,并且在AI-TOD数据集上的表现特别突出,达到了1.8 AP点和4.1 AP点的提升。
2024-07-26 14:21:04
1069
原创 DNTRo
本文旨在解决计算机视觉领域中微小物体检测的问题。由于图像数据中微小物体所占像素比例很小,因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域,高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。为此,作者提出了一个新的框架DNTR,它由DeNoising FPN模块和Trans R-CNN检测器组成。DN-FPN模块利用对比学习抑制FPN上每个级别的特征中的噪声,并在Top-down路径中融合不同尺度的特征。
2024-07-26 14:10:59
844
原创 SRTOD
本文主要探讨了在目标检测领域中,如何解决微小物体检测的问题。传统的通用检测器在处理微小物体时性能下降严重,主要是因为难以提取有效的特征。为了解决这个问题,作者提出了一个自我重建的微小物体检测框架(SR-TOD),并在检测模型中引入了一个自我重建机制。通过构建输入图像和重建图像之间的差异图,可以提高微小物体的可见性和清晰度,并增强弱表示以改善检测器的性能。此外,作者还开发了一种基于差异图引导的特征增强模块(DGFE)来进一步提升微小特征的清晰度。
2024-07-26 13:56:35
769
原创 Robust Tiny Object Detection in Aerial Images amidst Label Noise
精确检测遥感图像中的小目标非常困难,因为这类目标视觉信息有限且在场景中频繁出现。此外,手动标注这些小目标不仅费时费力,还容易出错,即产生标签噪声。当使用带有噪声标签的训练集训练检测器时,网络往往倾向于过度拟合错误标签,导致性能不佳。为了解决这一问题,作者提出了DeNoising Tiny Object Detector(DN-TOD)。该方法包含两个关键组成部分:Class-aware Label Correction(CLC)和Trend-guided Learning Strategy(TLS)。
2024-06-10 09:30:38
1031
原创 Inner-IoU
作者指出IoU损失在理论上有能力精确描述边界框回归状态,但在实践中,它不能自适应地匹配不同的检测器和检测任务,导致泛化能力较弱。为了解决这个问题,作者首先分析了BBR模型,发现区分不同回归样本并通过不同规模的辅助边界框来计算损失可以有效地加速回归过程。对于高IoU的样本,使用较小的辅助边界框来计算损失可以加快收敛,而低IoU的样本则更适合使用较大尺寸的辅助边界框。基于此Inner-IoU应运而生,它通过辅助边界框来计算IoU损失。
2024-06-07 12:04:25
596
原创 服务器进不去conda环境问题
立即重新加载和应用 .bashrc 配置文件中的设置。当你对 .bashrc 文件进行了修改,比如添加或修改了环境变量、别名(alias)、函数等功能后,通常需要执行这个命令来让这些更改在当前终端会话中生效,而无需关闭并重新打开终端。
2024-06-02 14:54:56
411
原创 mmcv-full安装失败更换whl安装
不知道服务器什么鬼,莫名其妙安装mmcv-full一直报错,这下就真的是一时卸载一直爽。然后path是你的路径。不得已只能去下载轮子。
2024-05-06 11:17:31
814
1
原创 Decoupling Representation and Classifier for Long-Tailed Recognition
本文探讨了深度学习在长尾分布数据集上的分类问题,并提出了将表示学习和分类器学习分开的方法。通过实验发现,即使使用最简单的平衡采样方法,也可以获得高质量的表示学习结果,并且只调整分类器即可实现强大的长尾识别能力。
2024-04-29 09:33:15
724
原创 SimCal(ECCV2020)
本文主要研究了长尾分布下的实例分割问题,并提出了一个简单而有效的解决方案——SimCal方法。在现有的实例检测和分割模型中,它们通常只适用于样本数量相当平衡的数据集,如COCO数据集,而在现实场景下,数据集通常是长尾分布的,这会导致性能下降。作者通过系统地调查了Mask R-CNN模型在LVIS数据集上的表现,发现其准确率下降的主要原因是物体提案分类不准确。为了解决这个问题,作者首先考虑了各种技术来提高长尾分类性能,这些技术确实提高了实例分割结果。然后,作者提出了一种简单的校准框架。
2024-04-26 12:03:15
807
原创 BAGS:Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax
本文探讨了在深度学习模型中解决长尾大型词汇物体检测的问题。作者发现现有的检测方法无法处理极度倾斜的数据集中的少数类别的问题,导致分类器不平衡。直接将长尾分类模型应用到检测框架中并不能解决问题,因为检测和分类之间存在本质差异。为了解决这个问题,作者提出了一个新颖的平衡组softmax(BAGS)模块,通过分组训练来平衡检测框架中的分类器。该模块可以对头部和尾部类别进行隐式调节,并确保它们都得到充分训练,而无需额外采样来自尾部类别的实例。
2024-04-26 11:50:23
801
1
原创 RT-DETR:DETRs Beat YOLOs on Real-time Object Detection(CVPR2024)
作者观察到NMS对YOLOs的速度和准确性有负面影响。(NMS进行后处理,不仅降低了推理速度,而且引入了导致速度和精度不稳定的超参数并且不同的场景对召回率和准确率的重视程度不同,需要仔细选择合适的NMS阈值,这阻碍了实时检测器的发展DETRs为消除NMS提供了另一种选择,然而,高昂的计算成本限制了它们的实用性,阻碍了它们充分发挥排除NMS的优势在本文中,作者提出了实时检测转换器(RT-DETR)解决NMS带来的影响,这是所知的第一个实时端到端对象检测器。
2024-04-17 11:29:06
1542
原创 YOLO-World——S(cvpr2024)
YOLO系列检测器对预定义和训练对象类别的依赖限制了它们在开放场景中的适用性。(简单来说就是一旦对象类别被定义和标记,经过训练的检测器只能检测到那些特定的类别)为了解决这个限制,作者提出了YOLO-World——通过视觉语言建模和大规模数据集的预训练,增强了YOLO的开放词汇检测能力。具体来说,作者提出了一种新的可重参数化视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。
2024-04-15 20:17:52
1367
原创 Practical Network Acceleration with Tiny Sets
本文中,作者指出在用小型训练集加速网络的情况下,是一种根本优越的方法。它具有较高的加速比,在少样本设置下具有较好的延迟精度性能。为了选择放弃哪些块,作者提出了一个新的概念,即可恢复性来衡量恢复受压网络的难度。最后,作者提出了一种名为PRACTICE的算法来加速只使用少量训练图像集的网络。在ImageNet-1k上平均高出7%的Top-1精度,减少22%的延迟。此外还具有很高的泛化能力,在无数据或域外数据设置下也能很好地工作。
2024-03-25 10:24:19
881
原创 RuntimeError: indices should be either on cpu or on the same device as the indexed tensor (cpu)
输出它们的device,看是否在同一设备上。结果两个gpu一个cpu,转换即可。
2024-03-17 16:59:21
486
原创 RuntimeError: CUDA error: CUBLAS_STATUS_NOT_SUPPORTED when calling `cublasSgemm( handle, opa, opb, m
本地跑不报错,环境配置一模一样,服务器上就报错。。。逛社区看人说把cuda降到10.2然而没起作用。
2024-03-17 11:33:06
901
原创 ImportError: DLL load failed while importing _ext: 找不到指定的模块。
本人是由于cuda11.3遇到无法解决问题,被破降到了10.2,然后就遭遇到了上述问题大概率还是和mmcv有关。
2024-03-16 20:16:30
4850
3
yolo系列论文解读11
2023-11-29
Perseus 软件体系结构顶会,fast2023最佳两篇论文之一
2023-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人