- 博客(15)
- 收藏
- 关注
原创 MMF-CLIP: 一种遥感图像文本多模态语义分割方法
大多数语义分割方法,如U-Net(基于cnn的)和SegFormer(基于transformer的),都是根据图像特征来解决分割任务。多模态机器学习从多个数据模态中学习,可以为同一个场景提供互补的信息,从而增强场景的表示和理解。使用预训练的 CLIP Transformer 文本编码器作为文本编码器,以及在 SegFormer 中具有强大特征提取能力的 MiT 图像编码器作为图像编码器。提出了一种多模态多尺度特征融合解码器,用于整合多模态和多尺度信息。
2025-04-07 19:25:11
944
原创 BLIP-2:使用冻结的图像编码器和大语言模型引导语言 - 图像预训练
为了利用Vision-language pre-training (VLP)的预训练单模态模型,促进跨模态对齐是关键。然而,由于大型语言模型在单模态预训练期间没有看到图像,冻结它们使视觉语言对齐特别具有挑战性。为了实现与冻结单模态模型的有效视觉语言对齐,我们提出了一个使用新的两阶段预训练策略进行预训练的查询转换器(QFormer)我们提出了Q-Former作为可训练模块,以弥合冻结的图像编码器和冻结的大语言模型(LLM)之间的差距。它从图像编码器中提取固定数量的输出特征,与输入图像的分辨率无关。
2025-03-21 16:50:41
588
原创 Deep-Learning-Based Semantic Segmentation of Remote Sensing Images: A Survey new
语义分割:遥感图像语义分割(SSRSIs)是对遥感图像中的每个像元进行分类的一种方法,在环境监测、城市规划、土地资源利用等领域有着广泛的应用语义分割的正式定义:语义分割的任务是构造一个分割函数f,以最小化训练集中图像的每个像素的预测标签和真实的标签之间的损失。在遥感图像分割任务中,通常会遇到交叉熵损失、骰子损失等问题。我们可以通过学习的分割函数f为未标记图像中的每个像素分配一个标签。
2025-02-28 14:09:20
643
原创 Remote Sensing Object Detection in the Deep Learning Era—A Review
(A)基于边界框的物体检测 (B) 实例分割 (C) 全景分割物体检测旨在找到图像或3D数据中所有感兴趣物体的位置和类别;通常,结果采用边界框的形式。实例分割旨在描绘单独检测到的对象的提取边界。当背景对象/场景类别感兴趣时,可以采用全景分割来提取这些对象所在的背景类别。
2024-12-29 12:15:14
306
原创 Transformers in Remote Sensing: A Survey
近年来,高分辨率(VHR)卫星传感器的出现为产生更高空间分辨率的图像铺平了道路,这些图像有利于土地利用变化检测、基于对象的图像分析(对象检测和实例分割)、精准农业耕作(例如作物管理)、土壤和害虫)以及应急响应。:通常,变化图会先将输入的图像或一系列图像(如前后时间帧、不同条件下的图像)进行比较,根据像素的变化来生成一个新的图像。分类:在许多现实世界的应用中,准确地对SAR图像中的目标类别进行分类是一个具有挑战性的问。图像字幕:遥感图像中的图像字幕是一个具有挑战性的问题,其中的任务是生成给定图像的语义自。
2024-12-20 12:34:22
572
原创 Transformer自梳理
想要梳理一下基础的Transformer模型,加深印象,检验一下自己是否真的理解了,也可以当做以后的复习笔记。直接以Transformer模型图,一步步拆解这个图。
2024-10-24 15:56:08
691
原创 遥感图像阅读综述1
变化检测(Change Detection,CD):简单来说,变化检测是指识别在同一地理区域上采集但在两个不同时间拍摄的图像之间的差异正式一点的定义:是指利用遥感技术或其他相关技术,在不同时间或不同条件下获取的图像或数据中,识别和分析地表或地物在时间和空间上发生的变化情况的过程。这些变化可能涉及地物的增长、减少、移动、形态变化等。
2024-10-21 16:36:42
1553
原创 粗谈RNN循环神经网络
1) BP算法,CNN之后, 为什么还有RNN?细想BP算法,CNN(卷积神经网络)我们会发现, 他们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数字等单个物体的识别具有较好的效果. 但是, 对于一些与时间先后有关的, 比如我们要预测股票的走势,就不能只看前一天判断后一天,最好是以五天或十天(我也不懂炒股,纯属举例,不要较真细节)为序列综合判断下一时刻的股票是涨还是跌。2) 什么是RNN?
2024-10-05 20:38:01
1143
原创 1×1卷积核
我想记录一下关于1×1卷积核的作用,通过学习和网上查阅资料我总结1×1卷积核的作用主要有如下三点:1.跨通道的特征整合2.特征通道的升维和降维3.减少卷积核参数(简化模型)简单说明一下它们的基本原理吧。
2024-09-28 19:05:03
404
转载 浅识神经网络
在卷积神经网络中,卷积操作是指将一个可移动的小窗口(称为数据窗口,如下图绿色矩形)与图像进行逐元素相乘然后相加的操作。这个小窗口其实是一组固定的权重,它可以被看作是一个特定的滤波器(filter)或卷积核。这个操作的名称“卷积”,源自于这种元素级相乘和求和的过程。这一操作是卷积神经网络名字的来源。上图这个绿色小窗就是数据窗口。简而言之,卷积操作就是用一个可移动的小窗口来提取图像中的特征。
2024-09-17 19:48:06
66
原创 浅谈梯度下降
假如我们要预测房子的价格,我们考虑房子的价格和诸多因素有关例如:面积、政策、时间等,为了简化问题我们以面积为例,假设价格只和面积有关,且设面积为x,价格为y,则价格和面积之间一定满足这样一种关系y=f(x)。基于现有数据我们可以得出图像那么我们想要通过训练得的一条可更好的拟合这些数据的线,也就是f(x),只要尽可能多的拟合现有数据才能保证预测的准确性。而我们称这个f(x)为预测函数,暂且记为y'吧,而现有的房子价格记为y那么|y'-y|就是预测的误差。
2024-09-15 17:14:15
985
原创 对激活函数的粗浅认知
在学习深度学习的过程中,关于激活函数我一直不解其真正意义,一个函数的使用到底会对模型产生怎样的作用。这篇文章我想简单记录自己对激活函数的认识。
2024-09-07 14:12:00
854
原创 列表的倒序遍历
翻转前:[1,2,3,4,5,6,7]翻转后:[7,6,5,4,3,2,1]记录一下列表中的倒序遍历方法,先看题。还可以倒序遍历输出,倒序遍历方法如下。定义一个列表并将它翻转。
2024-05-14 18:38:03
272
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人