- 博客(52)
- 资源 (1)
- 收藏
- 关注
原创 DID-M3D: Decoupling Instance Depth forMonocular 3D Object Detection | 全文翻译
通过在KITTI上的评估,我们的方法实现了新的最先进的结果,并通过广泛的消融研究验证了方法中每个组件的有效性。我们在图 1 中举例说明。对于物体上的每个点(或小块),视觉深度表示朝向代理(汽车/机器人)摄像头的绝对深度,而我们将属性深度定义为该点(或小块)到物体三维中心的相对深度偏移。因此,属性深度与视觉深度无关,而解耦实例深度允许我们使用单独的头为不同类型的深度提取不同类型的特征。如图 1 所示,对于右侧物体,其实例深度是汽车尾部深度与汽车半长之和,其中汽车长度是模糊的,因为汽车的左右两侧都是不可见的。
2024-08-13 00:09:15
1070
原创 CVPR2021 | DETR3D:3D Object Detection from Multi-view Images via 3D-to-2D Queries论文翻译
我们介绍了一种多摄像头三维物体检测框架。与直接从单目图像估算三维边界框或使用深度预测网络从二维信息生成三维物体检测输入的现有工作相比,我们的方法直接在三维空间中操作预测。我们的架构从多个摄像头图像中提取二维特征,然后使用稀疏的三维物体查询集对这些二维特征进行索引,利用摄像头变换矩阵将三维位置与多视角图像联系起来。最后,我们的模型对每个物体查询进行边界框预测,并使用集对集损失来衡量地面实况与预测之间的差异。
2024-03-14 15:27:31
1243
原创 ECCV2022 | BEVFormer原文翻译
三维视觉感知任务,包括基于多摄像头图像的三维检测和地图分割,对于自动驾驶系统至关重要。在这项工作中,我们提出了一个名为 BEVFormer 的新框架,它利用时空变换器学习统一的 BEV 表征,以支持多种自动驾驶感知任务。简而言之,BEVFormer 通过预定义的网格状 BEV 查询与空间和时间进行交互,从而利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉关注,使每个 BEV 查询都能从跨摄像头视图的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自关注,以反复融合历史 BEV 信息。
2024-03-14 15:15:27
1492
原创 CVPR2023 | 3D Data Augmentation for Driving Scenes on Camera
驾驶场景极其多样和复杂,仅靠人力不可能收集到所有情况。虽然数据扩增是丰富训练数据的有效技术,但自动驾驶应用中现有的摄像头数据扩增方法仅限于二维图像平面,在三维真实世界场景中可能无法最佳地增加数据多样性。为此,我们提出了一种名为 Drive-3DAug 的三维数据增强方法,旨在增强三维空间中摄像头拍摄的驾驶场景。我们首先利用神经辐射场(NeRF)重建背景和前景物体的三维模型。然后,将位置和方向经过调整的三维物体放置在预定义的背景有效区域,就可以获得增强的驾驶场景。因此,可以有效地扩大训练数据库。
2024-03-14 15:08:03
1092
原创 ICCV2023 | MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection
本文提出了一种新颖的室内3D目标检测方法,该方法仅使用RGB图像作为输入。作者提出利用神经辐射场(NeRF)来显式估计3D几何形状,以提高检测性能。他们引入了几何先验来增强NeRF的泛化能力,并通过共享的多层感知器(MLP)连接检测和NeRF分支,使NeRF能够高效地适应检测任务。该方法在基准数据集上超越了现有的最先进方法,并且能够在不进行场景特定优化的情况下很好地泛化到未见过的场景。文档提供了相关工作的概述,并详细描述了所提出的NeRF-Det方法。
2024-03-13 17:23:43
711
原创 重建3D结构方式 | 显式重建与隐式重建(Implicit Reconstruction)
在3D感知领域,包括3D目标检测在内,显式重建和隐式重建是两种不同的方法来表示和处理三维数据。它们各自有优势和局限,适用于不同的场景和需求。
2024-03-13 17:17:00
2318
原创 ICCV 2023 | NeRF-Det:Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Dete
本文介绍了一种新颖的方法,用于仅使用RGB图像作为输入进行室内3D目标检测。作者提出了利用神经辐射场(NeRF)来显式估计3D几何形状,以提高检测性能。他们。
2024-03-13 12:04:59
651
原创 3d场景重建&图像渲染 | 神经辐射场NeRF(Neural Radiance Fields)
Instant-ngp对于3D视觉、虚拟现实、增强现实和游戏开发等领域具有重要的意义,它不仅提高了NeRF技术的可用性,也为未来的图形渲染和3D建模开辟了新的可能性。通过对场景中的一系列点进行采样并计算它们的颜色和密度,NeRF可以模拟光线在场景中的传播,从而渲染出从特定视角观察到的场景图像。:通过优化的数据结构和算法,instant-ngp能够在几分钟内训练NeRF模型,并实现实时渲染,这是传统NeRF方法无法比拟的。这个过程需要大量的计算资源,因为它涉及到对每个训练图像的大量光线进行采样和渲染。
2024-03-11 15:04:21
1502
原创 目标检测:Anchor-free算法模型
虽然不完全是今天所讨论的anchor-free检测方法,但DenseBox是较早采用端到端方式进行目标检测和定位的方法之一,它为后续的anchor-free方法提供了灵感。DenseBox通过直接在特征图上预测边界框和目标的存在,展示了去除传统锚点的可能性。YOLOv1是一个开创性的工作,它将目标检测视为一个单一的回归问题,直接从图像像素到边界框坐标和类别概率的映射。
2024-03-08 18:06:48
1339
原创 目标检测:Anchor-Based & Anchor-Free算法模型
锚框通常由手动设计或数据分析来定义,以适应不同场景和物体的尺寸和形状。总结:Anchor-Based 与 Anchor-Free很大区别在于预测回归的是边界框偏移还是边界框本身,因为回归偏移就意味着存在一组基础锚框,被偏移所作用。方法更加灵活,因为它们不需要锚框,能够更好地适应不同的目标尺寸和形状。但它们可能需要更多的训练数据来实现与 anchor-based 方法相似的准确性。方法依赖于锚框,通常需要手动设计或选择合适的锚框,因此在某些情况下可能需要更多的人工工作。然而,它们在准确性上通常表现得更好。
2024-03-08 16:37:59
1129
2
原创 目标检测论文模型笔记 | YOLO系列
2. **边界框预测的准确性**:这是模型预测的边界框与实际对象边界框的匹配程度。这通常通过IOU(Intersection Over Union,交并比)来衡量,即预测的边界框与真实边界框的交集与并集的比例。最终的得分是置信度得分和类别概率的乘积,这样可以得到模型对于检测到的对象属于特定类别的总体置信度。confidence score(置信度得分)是一个重要的概念,用于表示模型对检测到的目标的置信程度。1. **对象存在的概率**:这是模型预测当前检测框内存在任何对象的概率。
2024-03-08 16:24:49
237
原创 目标检测经典模型笔记 | RCNN系列
Mask R-CNN的创新之处主要有两点:首先,引入了一个新的、与现有结构并行的分支,用于对每个感兴趣区域(ROI)生成高质量的分割掩码,实现精确的实例分割;其次,采用了ROI Align方法替代了先前的ROI Pooling,准确地从每个ROI中提取特征,解决了ROI Pooling中的量化误差问题,提高了检测的精度。,以便后续的分类和回归操作可以说ROI Pooling是Faster R-CNN中的一个重要步骤,是连接RPN和后续检测网络的桥梁。,feature map和anchor的对齐。
2024-03-07 21:29:01
1165
原创 ICCV2023 | MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection
在基于图像的 3D 感知方面的潜力。在 KITTI-3D 基准和 Waymo 开放数据集上进行的大量实验证明了 MonoNeRD 的有效性。代码可在 https: //github.com/cskkxjk/MonoNeRD 上获取。为了缓解这一问题,我们提出了 MonoNeRD,这是一种新颖的检测框架,可以推断出密集的三维几何图形和占位情况。来提高检测器的性能。然而,许多现有作品都明确采用了这些线索,如估计深度图并将其反向投影到三维空间。在单目三维检测领域,通常的做法是。据我们所知,这项研究。
2024-01-14 21:28:55
413
原创 DETR | ECCV2020
与传统的目标检测方法不同,DETR 将目标检测问题看作一个直接从图像预测一组固定数量目标的。这些object queries是学习得到的,可以被看作是代表目标检测任务中不同物体的嵌入。的这种方法带来了许多优点,包括避免使用复杂的区域提议网络和 NMS,以及能够直接处理任意数量的目标。提供了一个新的视角来看待目标检测问题,并显示了 Transformer 架构在计算机视觉任务中的潜力。这种方法的主要优点是可以避免使用区域提议网络、锚点和手工设计的非极大值抑制(NMS)步骤。:这是DETR的一个。
2023-10-17 15:27:59
169
原创 激光雷达目标检测&相机目标检测
因此,在实际应用中,通常会将激光雷达与相机等其他传感器一起使用,以充分利用它们的优势,提高目标检测的准确性和鲁棒性。3. **3D信息**: 激光雷达提供了关于物体的三维信息,包括高度、宽度和深度,而相机通常提供的是二维图像信息。2. **光照和环境条件无关**: 相机对光照和环境条件非常敏感,不同光照条件、阴影和反射可能会影响图像质量,从而影响目标检测性能。1. **距离信息**: 激光雷达能够提供物体与传感器的准确距离信息,而相机通常需要通过视差计算或深度估计来获得距离信息。
2023-10-12 11:31:33
721
原创 目标检测:one-stage & two-stage算法
"One-Stage" 和 "Two-Stage" 是目标检测方法的两种基本架构,它们的主要区别在于如何执行目标检测任务。YOLO(You Only Look Once)和 SSD(Single Shot MultiBox Detector)选择 Two-Stage 还是 One-Stage 方法通常取决于任务需求和性能要求。(基于区域、即 region proposal阶段和区域分类与精细化阶段)
2023-10-11 15:51:49
308
原创 MMDetection3D——构建 Box
在 MMDetection3D 中,我们将设定为参考方向,此外在 MMDetection3D 支持的算法和数据集实现中,包围框的旋转角度只考虑朝向角 yaw,不考虑俯仰角 pitch 和翻滚角 roll。
2023-07-01 16:04:38
229
原创 CVPR2022 | DiffusionDet:基于扩散模型的目标检测框架
填充gt框为固定数量500 -> gt框加高斯噪声 -> gt框坐标缩放 -> 将N个损坏的框送入检测器 ->N个预测框和分类 -> loss set 计算loss -> top k 策略为每个gt框assign成本最小的前k个预测框。整个模型分成两个部分,即图像编码器和检测解码器,检测解码器将以深度特征作为条件,而不是原始图像,以从噪声框zt中逐步细化边界框预测。检测解码器将一组建议框作为输入,将特征图裁剪RoI特征,并送入检测头,以获得回归框和分类结果。检测解码器由6个级联阶段组成。
2023-06-09 17:25:38
654
原创 ROI Align
ROI Align 是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示,在检测测任务中将 ROI Pooling 替换为 ROI Align 可以提升检测模型的准确性。
2023-06-09 17:04:13
94
原创 MMDetection3d | projects魔改笔记
``ignored_instances``(InstanceData):在训练/测试期间要忽略的实例。-`pred_instances _3d``(InstanceData):模型的3d实例预测。-`gt_instances_3d``(InstanceData):3d实例的gt注释。-`proposal``(InstanceData):在两阶段中使用的区域建议探测器。-`gt_instances``(InstanceData):2D实例的gt注释。
2023-05-24 10:59:58
620
原创 ICCV 2021| 3D Detection | DD3D
从单幅图像检测 3D 对象的最新进展利用单眼深度估计作为生成 3D 点云的方法,将相机变成伪激光雷达传感器。这些两级检测器随着中间深度估计网络的准确性而提高,而中间深度估计网络本身可以通过大规模自监督学习在没有人工标签的情况下得到改进。然而,它们往往比端到端方法更容易过度拟合,更复杂,并且与类似的基于激光雷达的检测器的差距仍然很大。在这项工作中,我们提出了一种端到端、单级、单目 3D 对象检测器 DD3D,它可以像伪激光雷达方法一样受益于深度预训练,但没有它们的局限性。
2023-03-31 11:19:10
181
原创 3d目标检测 | 模型基础概念
3- 创建模型(具体到模型也有相应的Pipeline,比如模型的具体构成部分:比如 GCN+Attention+MLP的混合模型)总之,深度学习的Pipeline 就是模型实现的步骤。深度学习现在的Pipeline 一般都比较强调模型的组件构成流程。上5个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。深度学习模型框架的Pipeline ,由很多组件步骤链接起来的。
2023-03-20 13:44:30
86
原创 CaDDN论文理解
端到端的网络结构,使得训练起来相对简单,没有额外的几何约束,有点搭积木的感觉。这种设计使得不能侧重某一方面,就是把深度估计、2d检测、3d检测放一起,炖大锅菜的感觉。只能通过损失函数的权重来进行一些侧重倾向,但这种侧重能起到核心平衡作用吗?能否把残差的理念引入网络结构中?以减少网络模块间的误差传递。
2023-03-17 21:38:05
368
原创 ICCV、ECCV、CVPR
原文链接:https://blog.csdn.net/m0_46988935/article/details/109378535。
2023-03-13 20:38:37
2893
原创 相机坐标系通过内参矩阵转换到像素坐标系
Xc,Yc,Zc为为相机坐标系的点,u,v为图像像素坐标系的点。即:相机坐标系的点通过相机内参矩阵得到图像像素坐标系中对应的点。xoy为相机坐标系,uv为图像像素坐标系。
2023-02-20 16:48:55
979
原创 Visdom:PyTorch可视化工具
visdom是Facebook专门为PyTorch开发的一款可视化工具, 可以直接对Tensor进行操作。
2023-01-11 17:13:23
242
原创 贝叶斯神经网络BNN
反向传播网络在优化完毕后,其权重是一个固定的值,而贝叶斯神经网络把权重看成是服从均值为 μ ,方差为 δ 的高斯分布,每个权重服从不同的高斯分布,反向传播网络优化的是权重,贝叶斯神经网络优化的是权重的均值和方差,所以贝叶斯神经网络需要优化的参数是反向传播网络的两倍。在预测时,BNN会从每个高斯分布中进行采样,得到权重值,此时贝叶斯神经网络就相当于一个反向传播网络。也可以进行多次采样,从而得到多次预测结果,将多次预测结果进行平均,从而得到最终的预测结果(就像是ensemble模型)
2022-12-12 03:06:31
919
原创 KITTI数据集-label解析笔记
为了防止在评估过程中(主要是计算precision),将本来是目标物体但是因为某些原因而没有标注的区域统计为假阳性(false positives),评估脚本会自动忽略’DontCare’ 区域的预测结果。是在相机坐标系下,以相机原点为中心,相机原点到物体中心的连线为半径,将物体绕相机y轴旋转至相机z轴,此时物体方向与相机x轴的夹角。在照相机坐标系下,物体的全局方向角(物体前进方向与相机坐标系x轴的夹角),范围:-pi~pi。0:完全可见 1:小部分遮挡 2:大部分遮挡 3:完全遮挡(unknown)
2022-11-14 15:04:46
3040
2
原创 DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection用于单目3D目标检测的解耦实例深度
标题:DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection作者:Liang Peng, Xiaopei Wu, Zheng Yang, Haifeng Liu, Deng Cai来源:2022 European Conference on Computer Vision (ECCV)原文链接:https://arxiv.org/abs/2207.08531。
2022-11-14 10:31:38
524
原创 分类与回归的区别
回归的目的是为了找到最优拟合,通过回归算法得到是一个最优拟合线,这个线条可以最好的接近数据集中的各个点。分类的目的是为了寻找决策边界,即分类算法得到是一个决策面,用于对数据进行分类。在实际操作中,经常将分类问题和回归问题相互转化。
2022-10-31 15:47:43
132
原创 gather()
a.gather(dim,b) --以dim和b为索引,从a中提取数据组成新的tensor,shape与b一致。总结:确定好按行or列提取之后,b中每行数据代表从a中提取每行or列的第几个数。其中a为tensor类型,b为longtensor类型。dim = 0 ,按列提取;dim = 1 ,按行提取。
2022-10-30 17:52:38
116
原创 【学习笔记】李宏毅-机器学习MachineLearning
参数,表示蓝色function的个数。i 越大说明红色curve转折点越多,越逼近真实曲线。将上图的蓝框式子用图展开表示:其中r为x的线性组合,激活函数输入前的形式。r 的三个长表达式可以用矩阵简化成一个式子:图底部的颜色小方块。注意形状代表矩阵格式。所以虚线框和红框内容等价。都是为了计算 r = b+wx计算出r1,r2,r3后,分别通过sigmoid function,得到a1,a2,a3。直接用 a =σ(r)表示。
2022-10-07 22:02:47
2156
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人