自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 Virtual Sparse Convolution for Multimodal 3D Object Detection 论文阅读

研究背景:本文提出了一个称为VirConv的操作符,用于基于虚拟点的多模态3D对象检测。针对虚拟点存在的密度问题和噪声问题,设计了StVD和NRConv两种创新机制来解决,并在此基础上构建了高效和高精度的3D检测模型。源码:https://github.com/hailanyi/VirConv。

2025-03-09 02:23:42 474 1

原创 CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity 论文阅读

研究背景:本文提出了CoBEV,一种结合深度与高度互补特性的道路侧单目3D目标检测框架。相较于受限于视野和遮挡问题的车辆检测,基于道路侧摄像头的检测具有更广的感知范围。然而,现有方法仅依赖深度或高度信息,难以在复杂场景中取得理想性能。CoBEV通过融合深度的几何线索与高度的语义信息,提升了鸟瞰视角(BEV)表示的鲁棒性,为智能交通系统提供了更可靠的解决方案。源码:https://github.com/MasterHow/CoBEV。

2025-03-09 02:21:46 226 1

原创 BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文阅读

研究背景:本文提出了新型多视角3D目标检测器BEVDepth,以可靠的深度估计提升基于相机的鸟瞰视角(BEV) 3D检测性能。相较于成本较高的LiDAR,多视角相机因低成本受关注,但现有方法(如Lift-Splat-Shoot)在深度估计上存在预测不准、泛化性差和BEV语义不精确等问题,限制了3D检测效果。这让我们对深度模块的泛化能力产生怀疑;设计了一个相机感知深度预测模块(Camera-aware Depth Prediction Module),将相机的内参和外参编码到深度学习模块中;

2025-03-09 02:20:31 433 1

原创 论文阅读 AlphaFold 2

In this study, we develop the first, to our knowledge, computational approach capable of predicting protein structures to near experimental accuracy in a majority of cases.In pic, the blues are predicted from AlphaFlod, and the greens are experimental resu

2025-01-24 15:42:41 1371 1

原创 DAMNet: Dynamic mobile architectures for Alzheimer‘s disease 源码链接

论文用图,部分 补充材料用图更丰富。详细伪代码见补充材料。

2025-01-02 13:15:55 577

原创 DAMNet: Dynamic mobile architectures for Alzheimer‘s disease 医学2d,3d图像都可以轻松应对

DAMNet balances accuracy and efficiency for AD models, reducing size by 20% with pruning and just 0.2% performance loss.DAMNet uses global attention, multi-scale features, and ARP, converting 3D MRI to 2D for AD with a 95.7% F1 score.Proposed a parallel in

2024-11-06 20:13:48 171

原创 支持向量机相关证明 解的稀疏性

主要涉及拉格朗日乘子法,对偶问题求解。

2024-11-06 18:54:55 454 1

原创 决策树章节 关于分割增益的推导 (提供学习笔记截图,包含预剪枝后剪枝等)

先上推导学习笔记后剪枝(自底而上)

2024-10-24 23:19:56 152

原创 拉普拉斯矩阵(L)相关证明 连通子图与L的谱

2024-10-21 17:30:37 160

原创 优化方法之随机梯度下降SGD优化器收敛性证明

主要涉及一个光滑性的函数性质(用泰勒展开进行一个证明),还有就是SGD定义,方差的定义以及琴生不等式。

2024-10-19 23:23:09 335

原创 优化方法之梯度下降法 以及相关定理证明

2024-10-18 20:26:28 188

原创 全球变暖端到端可视化分析

Meihua Zhou, Nan Wan, Tianlong Zheng, Hanwen Xu, Li Yang, Tingting Wang

2024-10-04 18:34:17 788

原创 读论文 NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

功能:这些视觉模型负责将3D环境中的各个视角翻译成自然语言描述,识别房间中的物体以及空间布局,例如“有天花板和窗户的房间”、“有沙发和灯的客厅”等。指令包含了对环境中关键物体和标志的引用,例如“天花板上的小提琴”、“悬挂吊灯的建筑物”、“墙上的画”等。例如,“我要走到水槽,但看不到水槽”,此时系统会结合已知的环境信息和常识,推断出可能的水槽位置,并决定前往更靠近的导航点。o“从缝纫室出来,右转,朝着带有娃娃的玻璃柜走去,进入左边的门,穿过床,进入左边的下一个门,进入浴室,在水槽旁等待。

2024-09-30 21:19:05 728

原创 读论文 PANDA:Prompt-based Context-and Domain-aware Pretraining for Vision and Language Navigation

然而,现有的基于预训练模型的VLN方法存在场景理解不足和对齐问题,且预训练模型与实际应用领域存在差距。本文提出了一种基于提示的预训练方法PANDA,分为领域感知和上下文感知两个阶段,通过软视觉提示和硬上下文提示 增强模型表示能力,并引入对比学习实现跨模态对齐。通过这种方式,PANDA利用提示学习来提高预训练模型在视觉语言导航任务中的性能,同时解决了领域差距问题,并提高了模型对场景和指令的理解能力。硬语境提示在上下文感知阶段发挥作用,专注于捕捉导航轨迹上动作之间的上下文关系,并实现跨模态对齐。

2024-09-29 20:03:14 387

原创 读论文 VPAIR - Aerial Visual Place Recognition and Localization in Large-scale Outdoor Environments

实验方案(这里不涉及提出的具体模型,它是以数据集发布为创新点的,所以不涉及模型结构): 使用机载摄像头拍摄的查询图像,目标是通过视觉地点识别(VPR)在一大批地理参照图像中识别出相同地点的图像。3.采用高分辨率参考渲染: 每张图像都配有高分辨率的参考渲染,包含密集的深度信息,增强了定位和地图构建的精度,使得算法能够更精确地处 理高空环境中的视觉数据。2.解决鸟瞰视角带来的挑战: 针对高空鸟瞰视角,VPAIR数据集设计了处理平面内旋转和视角变化的算法,有效提升了视觉地点识别和定位的准确性。

2024-09-29 20:01:48 305

原创 读论文 Talk2Nav: Long-Range Vision-and-Language Navigation with Dual Attention and Spatial Memory

子路线的导航指令、地标描述和本地方向指令的平均长度分别为 68.8 单词、8单词和 7.2单词。总的来说,他们的数据集 Talk2Nav 包含 5.240 独特的单词。图5显示了地标描述、本地方向指令和完整导航指令的长度(字数)的分布。他们可以沿着标记的路线(用红色和绿色绘制的线条)向前和向后导航,同时感知左侧的街景。提供了用于描述地标的标记路线和它们之间的方向的框。一个基于谷歌街景的交互式视觉导航环境,更重要的是设计了一种新颖的标注方法,突出了选定的地标和两者之间的空间过渡。在例子中,目的地是地标 4。

2024-09-29 20:00:00 453

原创 读论文 Generating Landmark Navigation Instructions from Maps as a Graph-to-Text Problem

生成的指令旨在用于 GPS 跟踪可能不可用的场景,例如行人、骑自行车的人或公共交通导航。在已验证的指令中,有 1,033 条指令需要在导航运行任务中进行第二次尝试。他们的数据集由几千条导航指令组成,这些指令经过验证,可以成功进行人工导航。该数据集足够大,可以训练神经模型生成导航指令,这些导航指令在几个方面与人工生成的指令非常相似。然而,性能自然会下降在看不见的数据上,包括新组合中的新型地标。此外,节点颜色仅用于可视化,未在图形中编码。在导航说明任务(顶部)中,注释者可以看到渲染的地图并编写遵循路线的说明。

2024-09-29 19:57:13 454

原创 读论文 Speaker-Follower Models for Vision-and-Language Navigation

其中speaker可以根据路径生成自然语言描述,而follower可以根据自然语言描述生成路径,分别使用2个seq-to-seq实现,可以通过重构自然语言的方式训练speaker,通过labels训练follower,如此实现数据的增强和性能的提升。该模型还介绍了高级动作表示的全景表征,使用了一些高级的决策标志(路径方向)而非低级的视觉运动(turn left、turn right等),也提高了模型的性能。b)使用Follower实现数据集的数据增强,即将合成的指令添加到原数据中,以加速模型训练。

2024-09-29 19:53:48 373

原创 读论文 FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation

研究背景:FOAM(是为了解决之前用于视觉和语言导航(VLN)的说话者-跟随者模型中发现的局限性。这种与追随者无关的方法可能会导致指令不太适合追随者的能力,从而降低导航效率和成功率。指令生成 FOAM模型的核心思想是通过双层优化框架(bi-level optimization framework),在外层优化过程中根据追随者在标注数据上的表现来优化发言者模型,在内层优化过程中根据追随者的反馈来调整发言者模型的参数。数据集:Room-to-Room(R2R)和 Room-across-Room (RxR)

2024-09-29 19:50:28 256

原创 读论文 Situated Instruction Following

任务嵌入在房子中,在探索(Pe)、任务(Pt)阶段和目标状态(Pg)期间的资产、代理和人类的起始位置,目标指令和关于在探索阶段后移动了哪些物体的人的通信。4.任务类型 SIF包含三种主要任务类型: 静态任务 (PnP): 在这种任务中,探索阶段和任务阶段之间环境保持不变。示例: “我移动了杯子。” 理解意图: 代理需要理解指令的意图,这可能包括推理物体的位置变化或人类意图的变化。在我们的设置中,指令具有以下特征:(1) 模糊不清,(2) 具有时间演变的意图,(3) 可以通过代理的动态行动更精确地解释。

2024-09-29 19:43:55 901

原创 读论文 VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation

2024-09-29 19:40:16 151

原创 读论文 PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation

2024-09-29 19:38:22 133

原创 读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

这些轨迹查询的输出经过MLP层处理,生成10个(x, y, z)坐标的序列,表示车辆相对于当前位置的预测轨迹,覆盖三秒的时间范围。研究利用CoVLA数据集,探索了多模态大语言模型在自动驾驶中的视觉、语言和动作处理能力,证实了模型在生成连贯输出方面的强大性能,展现了视觉-语言-动作模型在自动驾驶领域的应用潜力。我的思考:这里为什么命名为CoVLA-Agent,文中并没有说明,但是我觉得这是一个单智能体agent,CoVLA-Agent 集成了视觉、语言和动作数据,具有类似于人类驾驶员的能力。

2024-09-29 19:27:59 1014

原创 miniconda无法在终端执行source activate激活进入miniconda环境,出现报错-bash: activate:No such file/

(比如我的:/home/zmh/miniconda3/bin),接下来就可以将该路径添加至用户环境变量了(就要用到vim)最近给自己电脑换了内存条和固态硬盘 装了双系统 linux的环境重配 就记录了一些安装常见的小问题。安装后,会产生一个miniconda3文件夹,进入到其中的bin文件夹,可以看到可执行文件conda。#输入完成后,点击键盘ESC键,退出编辑模式,再使用快捷键shift+ZZ退出到主界面。bash之后,一直回车,最后选择yes,完成安装。激活进入miniconda环境,出现报错。

2024-08-23 14:35:45 1055

原创 读论文 LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

VLM将从LLM提取的地标描述与环境中的图像进行匹配,帮助系统确定这些地标在实际环境中的位置。VNM的任务是根据图像中的地标,制定最优的行驶路线,并实际控制机器人执行该路线。语言为与机器人的通信提供了更方便的方式,但当代方法通常需要昂贵的监督,以用语言描述注释的轨迹的形式。本文提出了一个用于机器人导航的系统 LM-Nav,该系统享有在未注释的大型轨迹数据集上进行训练的好处,同时仍然为用户提供高级界面。左侧是输入的自然语言指令,中间是VLM匹配出的地标,右侧是VNM执行路径规划后的实际行走路线。

2024-08-22 14:20:46 753

原创 读论文 ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments

为了开发强大的 VLN-CE 代理,作者提出了一种新的导航框架 ETPNav,该框架侧重于两项关键技能: 1)抽象环境和生成远程导航计划的能力,2)避障控制的能力在连续的环境中。如果一个Waypoint与图中已有节点的欧几里得距离小于设定的阈值,则将其定位为现有节点,否则会将其作为新的节点加入拓扑图。结合拓扑地图中的节点信息(如位置、距离等),每个节点的视觉特征会被增强为一个包含位置编码(pose encoding)和导航步骤编码(navigation step encoding)的综合向量。

2024-08-22 14:12:39 1859 2

原创 读论文 Improving Vision-and-Language Navigation by Generating Future-View Image Semantics(cvpr2023)

MTM的目的是让模型学习如何从部分遮挡的导航轨迹中推断出被遮挡的部分,这有助于模型在缺少部分路径信息的情况下仍能做出合理的导航决策。APIG让模型在生成未来视图的基础上,预测下一步的导航动作。Target Semantics Calculation Image Tokenizer:首先,输入的全景图像通过Image Tokenizer被分割成多个小的patches,这些patches代表了环境中的不同部分。未来视图生成与指令生成:通过APIG任务,模型基于当前的观察和未来视图的预测,生成下一步的导航指令。

2024-08-22 14:02:52 1638

原创 轻量级网络应用 服务生活

Meihua Zhou, Ivan Fung, Li Yang, Nan Wan, Keke Di, Tingting Wang @misc{zhou2023lostnetsmartwaylost, title={LostNet: A smart way for lost and find}, author={Meihua Zhou and Ivan Fung and Li Yang and Nan Wan and Keke Di and Tingting Wang},

2024-08-22 11:39:22 1265 2

原创 吴恩达视频学习记录 梯度下降法

J是成本函数为1/m的损失函数L之和。梯度下降法的简化就是求导取极值。

2024-08-20 20:16:16 141

原创 温故知新,巩固基础-吴恩达视频学习记录 logistic

Logistic回归是一种用于分类问题的统计模型,特别适用于二分类任务(即输出类别只有两个)。它的核心思想是通过一个逻辑函数(Sigmoid函数)将线性回归的输出结果映射到0到1之间的概率值,然后根据这个概率值进行分类。:最后,根据这个概率值,通常设定一个阈值(如0.5)来进行分类。如果概率大于等于0.5,则分类为正类(例如1),否则分类为负类(例如0)。其中,wiw_iwi​ 是每个输入特征的权重,xix_ixi​ 是输入特征,b 是偏置项。这个函数的输出即为输入数据属于某个类别的概率。

2024-08-19 21:40:40 217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除