- 博客(45)
- 收藏
- 关注
原创 【论文笔记】ViT-CoMer
例如,在 1 倍(3 倍)训练计划下,ViT-CoMer-S 相比于普通 ViT-S,边界框平均精度均值(box mAP)显著提升了 + 5.6%(+4.8%),掩码平均精度均值(mask mAP)提升了 + 3.4%(+3.1%)。经过多模态预训练的 ViT-CoMer-B 与在 ImageNet-1K 上预训练的模型相比,在边界框平均精度(APb)上提升了(+1.7%),在掩码平均精度(APm)上提升了(+1.7%)。经过N个阶段的特征交互后,将两个分支在每个尺度上的特征相加,用于密集预测任务。
2025-05-14 14:26:23
992
1
原创 【笔记】C++操作mysql及相关配置
本文介绍了如何在C++项目中配置MySQL的依赖,并提供了一个简单的数据库操作示例。首先,需要从MySQL官网下载C++ Connector库,建议使用8.3版本以避免兼容性问题。接着,配置项目目录,包括bin、includes、libs和src文件夹,分别用于存放可执行文件、头文件、库文件和源代码。在C++编译器中,需添加附加包含目录和库目录,并指定依赖项。最后,通过一个测试程序展示了如何连接MySQL数据库,并进行创建表、插入、查询、更新和删除等操作。文中还提供了详细的代码和配置步骤,帮助开发者快速上手
2025-05-13 13:50:59
803
原创 【论文笔记】SOTR: Segmenting Objects with Transformers
【题目】:SOTR: Segmenting Objects with Transformers【引用格式】:Guo R, Niu D, Qu L, et al. Sotr: Segmenting objects with transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 7157-7166.【网址】:https://openaccess.thecvf.com/cont
2025-05-05 18:16:02
1195
2
原创 【论文笔记】An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
【题目】:An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale【引用格式】:Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.【网址】:htt
2025-04-18 00:35:29
1015
1
原创 【模板】Linux中cmake使用编译c++程序
一般会将opencv的include和lib下载至/usr/include 和 /usr/lib中,若找不到对应的依赖包,可以使用find命令查找:find /usr/ -name opencv。
2025-02-23 15:29:46
517
原创 【论文笔记】MambaGlue: Fast and Robust Local Feature Matching With Mamba
【引用格式】:Ryoo K, Lim H, Myung H. MambaGlue: Fast and Robust Local Feature Matching With Mamba[J]. arXiv preprint arXiv:2502.00462, 2025.【网址】:https://arxiv.org/pdf/2502.00462【开源代码】:https://github.com/uri-Kaist/MambaGlue【PPT】:https://download.csdn.net/download
2025-02-20 21:02:38
1317
1
原创 【论文笔记】Mamba: Linear-time sequence modeling with selective state spaces
:(强推)
2025-02-20 20:28:49
1251
1
原创 【论文笔记】:Matching 2D Images in 3D:Metric Relative Pose from Metric Correspondences
【题目】【引用格式】:Barroso-Laguna, Axel, et al. Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences[C]. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
2025-01-11 20:10:23
861
1
原创 ETO:Efficient Transformer-based Local Feature Matching by Organizing Multiple Homography Hypotheses
在MegaDepth比较简单的室外案例中,文中的姿态估计精度低于先进的无检测器方法,但高于任何基于检测器的方法,而文中方法的运行时间最多是无检测器方法的23%、基于检测器方法的81%、基于CNN方法的90%。目前表现优异的特征点匹配方法大多是基于Transformer设计的,然而,Transformer在进行特征增强过程中所需要的时间过长,限制了其在实际应用中的推广。在YFCC100M中难度较高的室外案例中,文中的模型性能远远优于基于检测器的方法,与无检测器方法不相上下。源图像和目标图像上的匹配对坐标为(
2024-12-15 23:41:24
777
原创 【笔记】Linux服务器端使用百度网盘
认证通过后百度网盘会出现bypy文件夹,如下。1、在python环境下,下载bypy。3、查看当前文件夹下的文件。2、第一次连接需要认证。4、下载文件夹/文件。
2024-12-03 23:09:25
862
2
原创 【笔记】图像拼接
两张图像为投影变换;匹配点数量不少于4;能处理平面旋转、缩放、平移以及透视失真。在图像拼接中,使用匹配点计算变换矩阵是关键步骤。选择哪种变换方法,取决于匹配点的数量和图像内容的几何关系。仿射变换矩阵需要扩展为 3×3 矩阵,方便后续统一处理。其中 A 是 2×2 的旋转缩放矩阵,t 是平移向量。
2024-12-03 15:08:01
437
原创 【论文笔记】LoFLAT: Local Feature Matching using Focused Linear Attention Transformer
【题目】:LoFLAT: Local Feature Matching using Focused Linear Attention Transformer【中文题目】:LoFLAT:使用聚焦线性注意力变换器进行局部特征匹配【引用格式】:Cao N, He R, Dai Y, et al. LoFLAT: Local Feature Matching using Focused Linear Attention Transformer[J]. arXiv preprint arXiv:2410.22710,
2024-11-19 15:04:40
1235
1
原创 【论文笔记】Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Corresponden
【题目】:Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence【中文题目】:利用基础视觉模型的语义线索增强局部特征对应性【引用格式】:Cadar F, Potje G, Martins R, et al. Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature C
2024-11-19 14:16:37
980
1
原创 笔记:github连接私有厂库
密码短语是一个额外的安全层,用于保护您的私钥。如果您设置了密码短语,则在每次使用私钥时(例如,通过 SSH 登录到远程服务器时),都需要输入它。然后提示是否要为私钥设置一个密码短语(passphrase)在生成秘钥的时候,首先会提示将秘钥保存到什么位置。2、生成秘钥之后,在github中创建ssh即可。
2024-10-16 09:11:52
379
原创 【论文笔记】Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed
原因:MNN 匹配不存在空间差异,因为匹配是通过直接索引得分最高的像素来选择的,但无法实现亚像素精度。另外,双softmax在训练过程中至关重要,而在推理中,不使用softmax,直接使用分数矩阵S进行MNN匹配仍然可以得到很好的效果。对于之前的方法,都是直接在整个粗特征图上进行注意力变换,vanilla attention(香草注意力)代替linear attention来提高效率,但是模型能力达不到最优,这里文中提出高效的聚合注意力机制。根据粗匹配提取的精细局部特征块,搜索高精度的亚像素匹配。
2024-10-04 22:29:20
2327
1
原创 【论文笔记】DKTNet: Dual-Key Transformer Network for small object detection
RoI池化层将来自RPN的候选区域进一步处理,用于分类和边界框回归。
2024-10-04 22:01:19
1449
1
原创 【论文笔记】Raising the Ceiling Conflict-Free Local Feature Matching with Dynamic View Switching
随后,两幅图像的粗特征放到视图切换器中进行处理,这里将大尺度图像的粗特征切换到稀疏分支,检测头提取为稀疏特征。并将小尺度图像的粗特征保留为密集特征;注意消息表示为 M。对于每个粗匹配,文中在源精细特征图上采样单个特征,并在目标精细特征图上裁剪大小为 w ×w 的特征窗口。(1)检测两幅图像中的关键点(2)使用密集特特征作为粗特征(3)检测源图像中的关键点,并在目标图像中使用密集特征;文中计算源特征窗口的质心与目标特征窗口中的所有特征之间的相关性图,表示匹配概率,然后通过计算概率分布的期望得到精细匹配位置。
2024-08-13 21:55:53
990
1
原创 【学习笔记】多进程信号量控制
创建一个事件对象,用于通知线程或进程发生了特定事件。成功时返回事件对象的句柄;失败时返回NULL。创建一个计数信号量对象,成功时返回信号量对象的句柄;失败时返回NULL;当四个保存图像的线程都执行完毕之后,发送一次信号。设置事件对象为有信号状态。四个保存图像的线程;增加信号量的计数值。等待一个对象的状态变为有信号状态,或者等待超时。只使用计数信号量进行控制。
2024-08-09 23:17:52
451
原创 【论文笔记】Matching Anything by Segmenting Anything
网址目前的方法主要依赖于标记的特定领域视频数据集,这限制了学习相似性嵌入的跨域泛化。文中的方法由两个关键组件组成。首先,基于 SAM,文中开发了一个新的管道:MASA。有了这个管道,文中从丰富的未标记图像集合中为密集实例级对应关系构建了详尽的监督。它使我们能够学习强大的判别实例表示来跟踪任何对象,而不需要任何视频注释。其次,文中引入了一个通用 MASA 适配器,以有效地转换来自冻结检测或分割主干的特征,以学习可泛化的实例外观表示。同时,MASA 适配器的蒸馏分支也可以显着提高分割一切的效率。
2024-08-04 20:58:55
1671
1
原创 socket 收发TCP/UDP
个人测试记录,有问题还请指出,谢谢参考:C++开发基础之网络编程WinSock库使用详解TCP/UDP Socket开发_c++ udp使用什么库-CSDN博客代码中Logger测试见文章: c++中spdlog的使用/python中logger的使用-CSDN博客收发TCP信号 运行结果如下: 收发UDP信号3、SocketManager.cpp
2024-07-19 11:24:15
646
原创 GIM: Learning Generalizable Image Matcher From Internet Videos
网址文中指出,训练图像匹配模型需要多视图图像和ground-truth对应关系,数据多样性和规模是其他计算机视觉问题中可泛化模型的关键。为此,文中提出了一个利用互联网视频的自训练框架GIM,基于任何图像匹配架构学习单个可泛化模型。GIM可以使用各种视频,但由于互联网视频自然多样且几乎是无限的,文中采用了来自YouTube的50小时的视频,涵盖了26个国家、43个城市、各种闪电条件、动态对象和场景类型。标准图像匹配基准由RGBD或COLMAP(SfM+MVS)创建。
2024-06-23 22:01:17
1528
原创 OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
与所有其他方法相比,OmniGlue 不仅在 MegaDepth-1500 和最先进的稀疏匹配器 LightGlue 上实现了相当的性能,而且在 6 个新领域中的 5 个上表现出更好的泛化能力。此外,表 5 (2) 的第三行说明了位置引导注意力的影响,展示了域内和域外数据的改进。相比之下,OmniGlue 展示了强大的泛化能力,超过了 SuperGlue,精度提高了 12%,召回率提高了 14%。而对于在训练时没有看到的匹配模式的图像对下,学习到的先验很容易受到攻击,限制了泛化能力。,而不是所有关键点。
2024-06-08 21:41:29
1547
原创 LoFTR: Detector-Free Local Feature Matching with Transformers
网址大多数现有的匹配放大都是有三个阶段工作:特征点检测、特征点描述和特征点匹配。然而,当在低纹理区域、重复模式、视角变化、光照变化和运动模糊等情况下难以提取可重复兴趣点,进而会导致特征点匹配失败。LoFTER首先通过对图像进行卷积下采样以及上采样等操作,获得在原始图像1/8维度处的粗粒度特征表示和1/2维度处的细粒度特征表示;然后,将粗粒度特征表示进行Transformer特征提取;将得到的特征表示图进行特征匹配,获得粗匹配;
2024-05-26 10:35:14
1985
原创 XFeat: Accelerated Features for Lightweight Image Matching
网址现有的图像匹配方法往往需要大量的计算资源和复杂的实现,这在资源受限的设备上是不可行的。
2024-05-26 10:34:57
2141
原创 torch中一些函数的使用
代码案例:torch.sum/max/min():计算张量中所有元素的总和。 :返回张量中的最大值及其索引。 :返回张量中的最小值及其索引。 用于计算张量中所有元素的总和。可以指定沿着哪个维度进行求和,也可以不指定,这样将对整个张量进行求和。代码案例: 返回张量中的最大/小值及其索引。可以指定沿着哪个维度进行计算最大/小值,也可以不指定,这样将对整个张量进行计算。代码案例:torch.squeeze/unsqueeze() 函数会在指定的维度上增加一个尺寸为 1
2024-04-17 15:25:17
656
1
原创 linux共享windows文件夹
linux下,若有图形化界面,则有以下内容:(上面通过查看temp文件夹内容也可以看出,共享成功)查看,配置成功,实现linux在windows端该文件夹中的读写工作。2、在linux端,使用mount命令进行挂载。1、在windows中,设置共享文件。
2024-04-02 17:48:36
336
1
原创 MegaDepth: Learning Single-View Depth Prediction from Internet Photos
【引用格式】:Li Z, Snavely N. Megadepth: Learning single-view depth prediction from internet photos[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 2041-2050.
2024-04-01 21:47:18
2865
原创 相位配准算法(Phase correlated)- - - opencv-python
由于opencv中的phaseCorrelate方法中,src1和src2参数,必须是CV_32FC1 or CV_64FC1类型,如果不使用np.float32()则会报错。其中前一个元组,分別是在x轴上和在y轴上的相对位移。
2024-03-27 20:37:58
889
mysql-connect-c++库文件,包含8.3.0和9.3.0的release和debug文件
2025-05-13
PPT汇报:MambaGlue: Fast and Robust Local Feature Matching With Mamba
2025-02-20
汇报PPT:Mamba: Linear-time sequence modeling with selective state spaces
2025-02-20
Matching 2D Images in 3D:Metric Relative Pose from Metric Correspondences
2025-01-11
Efficient Transformer-based Local Feature Matching by Organizing Multiple Homography Hypotheses
2025-01-11
OpenCV4.8.0+contrib+cuda中一些下载不下来的文件
2023-12-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人