自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 Pytorch 多卡训练报错 RuntimeError: one of the variables needed for gradient computation has been modified

查了很多资料,都说是in_place的问题,主要是在relu以及 +=、*=的问题上,再有就是pytorch版本(pytorch内置的模型中会出现in_place问题);relu的问题还能通过下面这个函数替换参数解决,+=、*=这种问题好像只能通过修改代码实现。主要是添加broadcast_buffers=False这个参数,问题解决了。

2025-05-21 11:59:08 132

原创 【GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation】阅读笔记

鸟瞰图 (BeV) 表示法广泛用于多视图相机图像的 3D 感知。它允许将不同相机的功能合并到一个公共空间中,提供 3D 场景的统一表示。关键组件是视图转换器,它将图像视图转换为 BeV。然而,基于几何或交叉注意力的实际视图变换器方法不能提供足够详细的场景表示,因为它们使用 3D 空间的子采样,这对于建模环境的精细结构来说不是最佳的。在本文中,我们提出了 GaussianBeV,这是一种通过使用一组位于 3D 空间中定位和定向的 3D 高斯来精细地表示场景,将图像特征转换为 BeV 的新颖方法。

2024-10-29 17:13:07 601

原创 【GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting】笔记

GaussianOcc研究了关于高斯渲染的两方面:1. 完全的自监督 2. 高效的OCC估计。传统的自监督 3D 占用估计方法在训练期间仍然需要来自传感器的6D 姿态真值。为了解决这个限制,提出高斯溅射投影(GSP)模块,为相邻视图投影的完全自监督训练提供准确的尺度信息。此外,现有方法依赖于使用 2D 信号(深度图、语义图)进行最终 3D 体素表示学习的体积渲染,这既耗时又效率较低。我们提出从体素空间(GSV)进行高斯分布以利用高斯分布的快速渲染特性。

2024-10-28 20:58:54 1093

原创 【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记

现有的基于Occupancy的重建环境方法严重依赖于LiDAR点云,在纯视觉的系统中不可用。本文提出的OccNeRF用于在没有3d监督情况下训练占用网络与之前考虑有界场景的工作不同,OccNeRF参数化重建的占用场并重新组织采样策略以与相机的无限感知范围保持一致。采用神经渲染将占用场转换为多相机深度图,并通过多帧光度一致性进行监督。对于语义占用预测,OccNeRF设计了几种策略来完善提示并过滤预训练的开放词汇 2D 分割模型的输出。

2024-10-27 14:14:07 1090

原创 【Gaussian Grouping: Segment and Edit Anything in 3D Scenes】阅读笔记

最近的 Gaussian Splatting 实现了 3D 场景的高质量和实时新颖视图合成。然而,它仅仅集中于外观和几何建模,而缺乏细粒度的对象级场景理解。为了解决这个问题,我们提出了高斯分组,它扩展了高斯分布以联合重建和分割开放世界 3D 场景中的任何内容。我们用紧凑的身份编码增强每个高斯,允许高斯根据其对象实例或 3D 场景中的东西成员身份进行分组。我们没有采用昂贵的 3D 标签,而是利用分段任意模型 (SAM) 的 2D 掩模预测以及引入的 3D 空间一致性正则化来监督可微渲染期间的身份编码。

2024-10-24 01:01:29 1845

原创 3dgs问题记录

我们介绍了三个关键要素,它们允许我们在保持有竞争力的训练时间的同时达到最先进的视觉质量,并且重要的是允许在1080p分辨率下进行高质量的实时(≥30 fps)新视点合成。首先,从相机标定过程中产生的稀疏点出发,我们用3D高斯来表示场景,该高斯保持了用于场景优化的连续体积辐射场的良好特性,同时避免了在空空间中不必要的计算;其次,我们对3D高斯进行交织优化/密度控制,特别是优化各向异性协方差,以实现对场景的准确表示;第三,我们开发了一种支持各向异性抛雪球的快速可见性感知渲染算法,并同时加速训练。

2024-10-22 00:31:13 177

原创 【GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction】阅读笔记

3D 语义占用预测旨在获取周围场景的 3D 细粒度几何和语义,是实现以视觉为中心的自动驾驶鲁棒性的重要任务。大多数现有方法都使用密集网格(如体素)作为场景表示,这些网格忽略了占用的稀疏性和对象比例的多样性,从而导致资源分配不平衡。为了解决这个问题,我们提出了一种以对象为中心的表示,用稀疏的 3D 语义高斯来描述 3D 场景,其中每个高斯都代表一个灵活的感兴趣区域及其语义特征。我们通过注意力机制从图像中聚合信息,并迭代地细化 3D 高斯的属性,包括位置、协方差和语义。

2024-10-09 23:05:58 1389

原创 常用代码汇总

label me 标注得到json与jpg集合。

2024-10-07 16:26:48 519 1

原创 第24-29次CSP做题记录

即向下递归时,默认后续节点均被选择,计算sum如果小于包邮费用,则不再向下递归。可行的做法是选中所有物品,减去包邮的最低费用m,得到一个定值sum。原问题旨在给出一个方案,使得其超过m最少,可以认为占据sum最少,取反就是如何占据这个sum最多,即背包问题,如何利用空间最多。动态规划参照网上多篇博客,以背包问题的思想解决。本题要满足的是超过某一阈值的最小值,01背包问题是不超过某一阈值,从数轴上看,前者。靠近阈值,取反即可使得二者方向相同。

2024-10-07 16:24:57 458

原创 【In-Context Learning (ICL)】about CV 中使用的大模型

In-Context Learning 均要涉及一个训练有素的大模型,在与cv有关的In-Context Learning中,常用的大模型主要根据输出分为两类,一种是输出文本的非官方实现的Open-Flamingo,还有一种是输出图片的视觉大模型,主要有三个,分别是。这其实在【Towards More Unified In-context Visual Understanding】都有提到,且该文章提出了一种既输出可文本也可输出图像的模型。但代码还未开源。这三种工作都是解决了多个任务,均是。

2024-06-06 07:44:09 1367

原创 【In-Context Learning (ICL)】about CV

ICL about cv

2024-05-23 12:37:10 1129 1

原创 [Errno 28] No space left on device ERROR: Could not install packages due to an Environment Error

参考参考怕之后找不到,特此记录。如有侵权,请联系删除;因此带来不便,提前说声抱歉。由于 /tmp 目录空间不足,手动指定一个 tmp 目录,本文指定为$HOME下面的 tmp 文件夹。

2024-01-11 22:56:35 648 1

原创 第二讲 数据结构

参考ACwing。

2023-07-05 22:26:11 201

原创 华东师范 ecnu 2018 年计算机系夏令营机考

懂得第二、三个点后,第四个点也很好想,将棋盘分为上下两部分,上面那部分就是第一个点,下面那部分就是第二个点。第二个点只需要先特殊地把第一行走完,然后走到(2,1)的位置,接下来情况就回到了第一个点。第一个点很好想,就顺着从左往右走完第一行,从右往左走完第二行,接着往下就好了。

2023-07-05 22:25:15 206

原创 第一讲 基础算法

Acwing基础算法 第一讲 基础算法

2023-07-03 10:38:53 129

原创 【Rethinking Coarse-to-Fine Approach in Single Image Deblurring】阅读笔记

geometric self-ensemble指测试时,把图像90度旋转以及翻转,总共有8种不同的图像,分别进网络然后变换回原始位置,8张图像再取平均。这样可以使测试结果有略微提高,详见论文。

2023-03-17 23:25:51 367

原创 【Deblurring by Realistic Blurring】阅读笔记

本文不同的是,它合成的模糊图片是向真实模糊图片靠近的模糊图片,也就是说,从神经网络的角度靠近了合成模糊图片与真实模糊图片的距离(现在想想,这一创新,直白来讲就是用神经网络合成模糊图片,之前模糊图片大都是根据估计的模糊核来生成)。为了使得生成的图片更加接近真实的图片,这里就提出了一种RBL损失达成这一目标,更具体的来讲,它是为了使得合成的模糊图片真实概率接近0.5,使得真实模糊图片也接近0.5,达到所谓的将0push到0.5,将1pull到0.5。不同的是,去掉了其中的BN层(增加计算量并且降低最终效果)

2022-09-28 15:26:56 534

原创 【XYDeblur: Divide and Conquer for Single Image Deblurring】阅读笔记

在选用水平还是垂直方向作为参数也是有考究的,这里采用的学习水平方向特征的参数,原因在于水平方向上学习到的模糊信号更强(水平方向上相机可以旋转360度,竖直方向上很少有旋转360度的情况)。两种情况下唯一不同的就是学到的特征重建是水平方向和竖直方向,这样的操作可以强制两个解码器分享信息,分享除了轴线方向外的信息,也就是去模糊的信息,网络可以专注于消除模糊分量。更值得注意的是,本文提出的结构在整体上仍是一个残差学习的过程,以前的网络有在中间应用残差学习,但整体上仍是图像重建的过程。

2022-09-28 15:26:38 583

原创 【Deep Stacked Hierarchical Multi-patch Network for Image Deblurring】阅读笔记

本篇论文在归纳时,仍将当前基于CNN的去模糊方法归纳为两种形式,多尺度和尺度递归。认为这两种方案是将”从粗到精”方案扩展到深度CNN场景。

2022-09-08 12:52:43 471

原创 【Dynamic Scene Deblurring with Parameter Selective Sharing and Nested Skip Connections】阅读笔记

仔细考虑这个观点,这里说的参数一致更谨慎地来说应该是去模糊的过程是一致,而对特征提取这一块的参数应该没有特殊要求,特征提取模块能够适应不同尺度输入的图片,这无可厚非,因此,就出现了本文的参数选择性共享方案。所谓的变换模块实际上是有四个处理单元,每个处理单元中有两个卷积层,因此一个变换模块有8个卷积层,每一阶段中有一个特征提取层,即一个卷积层,两个变换模块,共16层。其具体实现的方式就是先用不共享参数的模块提取不同尺度的特征,然后运用共享参数的模块来对特征进行相同的从模糊到清晰的变换。

2022-09-08 12:52:23 283

原创 【Deep Semantic Face Deblurring】阅读笔记

未来的工作包括改进处理大的和不均匀的模糊核的性能,并减轻面部对齐的要求。从任务目标角度上讲,这部分任务是要训练一个网络,使得其能够对一张模糊图片中人脸的五官进行定位,将所属像素进行分割,和分割任务极像。的框架构建鉴别器,由于我们的目的就是要生成清晰图片,因此只要最好得到一个性能良好的生成器即可,因此只需要更新生成器网络部分,即仅需要生成器部分的损失。这一点的设计,首先是充分考虑了任务的需要,简化了问题,但就对人脸去模糊这一问题来说,应该不难想到,应该是首次提出了这种做法。就得到了响应关键点的损失。...

2022-08-31 14:58:57 1004

原创 【Scale-recurrent Network for Deep Image Deblurring】阅读笔记

提出了一种网络架构。

2022-08-31 14:57:34 734

原创 【Learning a Discriminative Prior for Blind Image Deblurring】阅读笔记

CNNMAP。

2022-08-31 10:13:02 653 1

原创 【DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks】阅读笔记

每个轨迹矢量是复值矢量,其对应于在连续域中跟随2D随机运动的对象的离散位置。轨迹生成是通过马尔可夫过程完成的,总结在算法1中。轨迹的下一个点的位置是基于先前的点速度和位置,高斯扰动,脉冲扰动和确定性惯性分量随机生成的。经核验,第三个池化层标号为27,前三层卷积层刚好是25(1),16(2),14(3)。限制所采取的强制裁剪进行改进,转成添加一项正则项,对权重进行惩罚,使得梯度维持在1附近。之间,采用的方法就是超出区间去边界的方法。的基础上改进,改进的地方就是对满足。的前15层网络的输出,再计算。...

2022-08-31 10:12:30 543

原创 【Human-Aware Motion Deblurring】阅读笔记

人类感知运动去模糊

2022-08-10 16:33:31 1461

原创 【Unifying Motion Deblurring and Frame Interpolation with Events】阅读笔记

运动模糊视频去模糊兼插值

2022-08-10 16:33:05 1068

原创 【Deep Image Deblurring: A Survey】阅读笔记

图像去模糊是将输入的模糊图像,恢复成清晰的图像。模糊的种类可以分为:运动模糊、失焦模糊、高斯模糊和混合模糊。现实中多是运动模糊、失焦模糊和混合模糊。运动模糊又可以分为相机运动和物体运动两种模糊,其中物体运动造成的模糊,静止的背景往往认为是清晰的。与此同时,构建出模糊核。...

2022-08-10 16:32:07 1386

原创 求逆序对数(分治法)

核心思路:利用分治将问题折半,认为分成的两个子问题均有解并已返回,因此原问题就转化成如何处理跨越两个子问题部分的逆序对数。 子问题有解:是分治的基本假设,(同数学归纳法假设n=k时成立)即假设该问题是有解的,换种方式理解就是在不断递归的过程中,我们最先处理到的是当序列长度为1的情况,毫无疑问返回0。然后再处理将两个子序列合并的过程,合并后整个序列又可以作为更长序列的子序列。因此只要我们能够处理序列合并,该问题可解。 序列合并:合并时由于我们追求O(nlogn)的时间复杂度,由主定理可知合并操...

2022-03-16 21:53:20 2054

原创 李宏毅2020机器学习深度学习

P1机器学习1.机器学习就是自动寻找函数(函式)2.找到的函数输出是一个数值即可称之为regression (回归)3.generation 不同于回归于分类 是一个让机器创造的过程 作业中RNN中的Seq2seq可翻译产生语句(文句) CNN中的GAN 产生二次元人物头像4.Supervised learning 告诉机器每张图片对应的正确分类输出就是做label 即理想输出。而有label的训练 即Supervised learning 有了label后即可计算实际与理想的偏差 即找到的

2022-01-21 17:13:11 458

原创 线性代数再理解

一、线性代数本质(几何理解)1.线性相关与线性无关2.线性变换(矩阵的乘法、交换律、结合律再理解)矩阵乘法一个矩阵就意味着一个线性变换,矩阵的乘法就意味着线性变换的复合,这个复合与函数符合一样,从右往左运算。在二维角度,也就是一个2*2矩阵,对应着平面的一个线性变换,而矩阵相乘,比如AB,就是对一个平面先进行B矩阵对应的线性变换,再进行A矩阵对应的线性变换。高维可类比。矩阵乘法的交换律由于矩阵乘法可以视为线性变换的复合,那么交换律就意味着更改两个线性变换的复合顺序。对AB与BA是否相

2021-08-10 14:40:41 636

原创 CS231N assignment1 SVM 代码+注释

一、linear_svm.py部分1.def svm_loss_naive(W, X, y, reg):def svm_loss_naive(W, X, y, reg): """ Structured SVM loss function, naive implementation (with loops). Inputs have dimension D, there are C classes, and we operate on minibatches of

2021-08-10 13:51:16 487

原创 CS231N assignment 1 KNN 代码+注释

一、k_nearest_neighbor.py 部分:1.两层循环def compute_distances_two_loops(self, X): """ Compute the distance between each test point in X and each training point in self.X_train using a nested loop over both the training data and the

2021-08-10 10:43:28 238

原创 深度学习 CS231N 同济子豪兄 听课笔记

2021.8.5 同济子豪兄 P41.神经网络的形成:为线性分类器增加一个激活函数,再将每一个神经元一层一层地排列起来,得到全连接神经网络(多层感知机),正是有了激活函数,才给神经网络带来了非线性,否则,无论堆多少层,仍与线性分类器无区别2.神经网络层数却多,提取的特征越多,但也容易过拟合3.数学定理已经证明,仅有一层隐含层,只要神经元个数够多,就可以逼近任何函数。但我们希望它更深4.神经网络的训练方法就是反向传播,通过链式求导,层层展开,就可求得各个权重对应的梯度,具体计算方法为 该.

2021-08-06 08:15:49 344

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除