Nepethens-CSDN博客

原创 Pytorch 多卡训练报错 RuntimeError: one of the variables needed for gradient computation has been modified

查了很多资料，都说是in_place的问题，主要是在relu以及 +=、*=的问题上，再有就是pytorch版本（pytorch内置的模型中会出现in_place问题）；relu的问题还能通过下面这个函数替换参数解决，+=、*=这种问题好像只能通过修改代码实现。主要是添加broadcast_buffers=False这个参数，问题解决了。

2025-05-21 11:59:08 132

原创【GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation】阅读笔记

鸟瞰图 (BeV) 表示法广泛用于多视图相机图像的 3D 感知。它允许将不同相机的功能合并到一个公共空间中，提供 3D 场景的统一表示。关键组件是视图转换器，它将图像视图转换为 BeV。然而，基于几何或交叉注意力的实际视图变换器方法不能提供足够详细的场景表示，因为它们使用 3D 空间的子采样，这对于建模环境的精细结构来说不是最佳的。在本文中，我们提出了 GaussianBeV，这是一种通过使用一组位于 3D 空间中定位和定向的 3D 高斯来精细地表示场景，将图像特征转换为 BeV 的新颖方法。

2024-10-29 17:13:07 601

原创【GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting】笔记

GaussianOcc研究了关于高斯渲染的两方面：1. 完全的自监督 2. 高效的OCC估计。传统的自监督 3D 占用估计方法在训练期间仍然需要来自传感器的6D 姿态真值。为了解决这个限制，提出高斯溅射投影（GSP）模块，为相邻视图投影的完全自监督训练提供准确的尺度信息。此外，现有方法依赖于使用 2D 信号（深度图、语义图）进行最终 3D 体素表示学习的体积渲染，这既耗时又效率较低。我们提出从体素空间（GSV）进行高斯分布以利用高斯分布的快速渲染特性。

2024-10-28 20:58:54 1093

原创【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记

现有的基于Occupancy的重建环境方法严重依赖于LiDAR点云，在纯视觉的系统中不可用。本文提出的OccNeRF用于在没有3d监督情况下训练占用网络与之前考虑有界场景的工作不同，OccNeRF参数化重建的占用场并重新组织采样策略以与相机的无限感知范围保持一致。采用神经渲染将占用场转换为多相机深度图，并通过多帧光度一致性进行监督。对于语义占用预测，OccNeRF设计了几种策略来完善提示并过滤预训练的开放词汇 2D 分割模型的输出。

2024-10-27 14:14:07 1090

原创【Gaussian Grouping: Segment and Edit Anything in 3D Scenes】阅读笔记

最近的 Gaussian Splatting 实现了 3D 场景的高质量和实时新颖视图合成。然而，它仅仅集中于外观和几何建模，而缺乏细粒度的对象级场景理解。为了解决这个问题，我们提出了高斯分组，它扩展了高斯分布以联合重建和分割开放世界 3D 场景中的任何内容。我们用紧凑的身份编码增强每个高斯，允许高斯根据其对象实例或 3D 场景中的东西成员身份进行分组。我们没有采用昂贵的 3D 标签，而是利用分段任意模型 (SAM) 的 2D 掩模预测以及引入的 3D 空间一致性正则化来监督可微渲染期间的身份编码。

2024-10-24 01:01:29 1845

原创 3dgs问题记录

我们介绍了三个关键要素，它们允许我们在保持有竞争力的训练时间的同时达到最先进的视觉质量，并且重要的是允许在1080p分辨率下进行高质量的实时(≥30 fps)新视点合成。首先，从相机标定过程中产生的稀疏点出发，我们用3D高斯来表示场景，该高斯保持了用于场景优化的连续体积辐射场的良好特性，同时避免了在空空间中不必要的计算；其次，我们对3D高斯进行交织优化/密度控制，特别是优化各向异性协方差，以实现对场景的准确表示；第三，我们开发了一种支持各向异性抛雪球的快速可见性感知渲染算法，并同时加速训练。

2024-10-22 00:31:13 177

原创【GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction】阅读笔记

3D 语义占用预测旨在获取周围场景的 3D 细粒度几何和语义，是实现以视觉为中心的自动驾驶鲁棒性的重要任务。大多数现有方法都使用密集网格（如体素）作为场景表示，这些网格忽略了占用的稀疏性和对象比例的多样性，从而导致资源分配不平衡。为了解决这个问题，我们提出了一种以对象为中心的表示，用稀疏的 3D 语义高斯来描述 3D 场景，其中每个高斯都代表一个灵活的感兴趣区域及其语义特征。我们通过注意力机制从图像中聚合信息，并迭代地细化 3D 高斯的属性，包括位置、协方差和语义。

2024-10-09 23:05:58 1389

原创常用代码汇总

label me 标注得到json与jpg集合。

2024-10-07 16:26:48 519 1

原创第24-29次CSP做题记录

即向下递归时，默认后续节点均被选择，计算sum如果小于包邮费用，则不再向下递归。可行的做法是选中所有物品，减去包邮的最低费用m，得到一个定值sum。原问题旨在给出一个方案，使得其超过m最少，可以认为占据sum最少，取反就是如何占据这个sum最多，即背包问题，如何利用空间最多。动态规划参照网上多篇博客，以背包问题的思想解决。本题要满足的是超过某一阈值的最小值，01背包问题是不超过某一阈值，从数轴上看，前者。靠近阈值，取反即可使得二者方向相同。

2024-10-07 16:24:57 458

原创【In-Context Learning (ICL)】about CV 中使用的大模型

In-Context Learning 均要涉及一个训练有素的大模型，在与cv有关的In-Context Learning中，常用的大模型主要根据输出分为两类，一种是输出文本的非官方实现的Open-Flamingo，还有一种是输出图片的视觉大模型，主要有三个，分别是。这其实在【Towards More Unified In-context Visual Understanding】都有提到，且该文章提出了一种既输出可文本也可输出图像的模型。但代码还未开源。这三种工作都是解决了多个任务，均是。

2024-06-06 07:44:09 1367

原创【In-Context Learning (ICL)】about CV

ICL about cv

2024-05-23 12:37:10 1129 1

原创 [Errno 28] No space left on device ERROR: Could not install packages due to an Environment Error

参考参考怕之后找不到，特此记录。如有侵权，请联系删除；因此带来不便，提前说声抱歉。由于 /tmp 目录空间不足，手动指定一个 tmp 目录，本文指定为$HOME下面的 tmp 文件夹。

2024-01-11 22:56:35 648 1

原创第二讲数据结构

参考ACwing。

2023-07-05 22:26:11 201

原创华东师范 ecnu 2018 年计算机系夏令营机考

懂得第二、三个点后，第四个点也很好想，将棋盘分为上下两部分，上面那部分就是第一个点，下面那部分就是第二个点。第二个点只需要先特殊地把第一行走完，然后走到（2，1）的位置，接下来情况就回到了第一个点。第一个点很好想，就顺着从左往右走完第一行，从右往左走完第二行，接着往下就好了。

2023-07-05 22:25:15 206

原创第一讲基础算法

Acwing基础算法第一讲基础算法

2023-07-03 10:38:53 129

原创【Rethinking Coarse-to-Fine Approach in Single Image Deblurring】阅读笔记

geometric self-ensemble指测试时，把图像90度旋转以及翻转，总共有8种不同的图像，分别进网络然后变换回原始位置，8张图像再取平均。这样可以使测试结果有略微提高，详见论文。

2023-03-17 23:25:51 367

原创【Deblurring by Realistic Blurring】阅读笔记

本文不同的是，它合成的模糊图片是向真实模糊图片靠近的模糊图片，也就是说，从神经网络的角度靠近了合成模糊图片与真实模糊图片的距离（现在想想，这一创新，直白来讲就是用神经网络合成模糊图片，之前模糊图片大都是根据估计的模糊核来生成）。为了使得生成的图片更加接近真实的图片，这里就提出了一种RBL损失达成这一目标，更具体的来讲，它是为了使得合成的模糊图片真实概率接近0.5，使得真实模糊图片也接近0.5，达到所谓的将0push到0.5，将1pull到0.5。不同的是，去掉了其中的BN层（增加计算量并且降低最终效果）

2022-09-28 15:26:56 534

原创【XYDeblur: Divide and Conquer for Single Image Deblurring】阅读笔记

在选用水平还是垂直方向作为参数也是有考究的，这里采用的学习水平方向特征的参数，原因在于水平方向上学习到的模糊信号更强（水平方向上相机可以旋转360度，竖直方向上很少有旋转360度的情况）。两种情况下唯一不同的就是学到的特征重建是水平方向和竖直方向，这样的操作可以强制两个解码器分享信息，分享除了轴线方向外的信息，也就是去模糊的信息，网络可以专注于消除模糊分量。更值得注意的是，本文提出的结构在整体上仍是一个残差学习的过程，以前的网络有在中间应用残差学习，但整体上仍是图像重建的过程。

2022-09-28 15:26:38 583

原创【Deep Stacked Hierarchical Multi-patch Network for Image Deblurring】阅读笔记

本篇论文在归纳时，仍将当前基于CNN的去模糊方法归纳为两种形式，多尺度和尺度递归。认为这两种方案是将”从粗到精”方案扩展到深度CNN场景。

2022-09-08 12:52:43 471

原创【Dynamic Scene Deblurring with Parameter Selective Sharing and Nested Skip Connections】阅读笔记

仔细考虑这个观点，这里说的参数一致更谨慎地来说应该是去模糊的过程是一致，而对特征提取这一块的参数应该没有特殊要求，特征提取模块能够适应不同尺度输入的图片，这无可厚非，因此，就出现了本文的参数选择性共享方案。所谓的变换模块实际上是有四个处理单元，每个处理单元中有两个卷积层，因此一个变换模块有8个卷积层，每一阶段中有一个特征提取层，即一个卷积层，两个变换模块，共16层。其具体实现的方式就是先用不共享参数的模块提取不同尺度的特征，然后运用共享参数的模块来对特征进行相同的从模糊到清晰的变换。

2022-09-08 12:52:23 283

原创【Deep Semantic Face Deblurring】阅读笔记

未来的工作包括改进处理大的和不均匀的模糊核的性能，并减轻面部对齐的要求。从任务目标角度上讲，这部分任务是要训练一个网络，使得其能够对一张模糊图片中人脸的五官进行定位，将所属像素进行分割，和分割任务极像。的框架构建鉴别器，由于我们的目的就是要生成清晰图片，因此只要最好得到一个性能良好的生成器即可，因此只需要更新生成器网络部分，即仅需要生成器部分的损失。这一点的设计，首先是充分考虑了任务的需要，简化了问题，但就对人脸去模糊这一问题来说，应该不难想到，应该是首次提出了这种做法。就得到了响应关键点的损失。...

2022-08-31 14:58:57 1004

原创【Scale-recurrent Network for Deep Image Deblurring】阅读笔记

提出了一种网络架构。

2022-08-31 14:57:34 734

原创【Learning a Discriminative Prior for Blind Image Deblurring】阅读笔记

CNNMAP。

2022-08-31 10:13:02 653 1

原创【DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks】阅读笔记

每个轨迹矢量是复值矢量，其对应于在连续域中跟随2D随机运动的对象的离散位置。轨迹生成是通过马尔可夫过程完成的，总结在算法1中。轨迹的下一个点的位置是基于先前的点速度和位置，高斯扰动，脉冲扰动和确定性惯性分量随机生成的。经核验，第三个池化层标号为27，前三层卷积层刚好是25（1），16（2），14（3）。限制所采取的强制裁剪进行改进，转成添加一项正则项，对权重进行惩罚，使得梯度维持在1附近。之间，采用的方法就是超出区间去边界的方法。的基础上改进，改进的地方就是对满足。的前15层网络的输出，再计算。...

2022-08-31 10:12:30 543

既脱春火的博客