遥感大模型是遥感技术与人工智能领域相结合的产物,以下是关于它的详细介绍:
定义与特点
- 定义 :遥感大模型是利用卷积神经网络、循环神经网络、自注意力机制、Transformer 等先进的深度学习结构,通过对大规模遥感数据进行预训练,结合迁移学习与领域适配技术,实现对地物精细分类、多尺度目标检测、高精度语义分割以及多时相变化检测等任务的智能化处理的模型。
- 特点 :
- 多模态数据融合 :能够融合光学、SAR、LiDAR 等遥感数据,以及文本、音频、视频、矢量数据等不同模态的数据,弥补单一模态的缺陷,使模型对遥感信息的理解更加全面和准确,从而提升模型的泛化性和表示能力,更好地应对复杂的遥感应用场景。
- 强大的泛化能力 :凭借其庞大的参数规模和先进的模型结构,可以在不同的遥感数据集、任务场景以及地理区域中表现出较为稳定的性能,而不需要对每个特定任务都重新进行大量数据标注和模型训练,有效降低了数据成本和时间成本。
- 自监督学习为主 :多采用自监督学习的方式,通过特定的代理任务生成伪标签来从未标记的数据中获取有用的表示信息,减少了对大规模标注数据的依赖,能够充分利用海量的无标注遥感数据进行预训练,学习到数据中的深层特征。
构建方式
- 微调现有开源视觉大模型 :通过微调、提示学习、特征融合等方法,将已有大模型迁移到遥感领域,使其适应遥感数据的特点和特定的遥感任务。
- 构建预训练大模型 :使用无标签海量遥感数据,构建大型无标签数据集,利用自监督学习方法构建遥感大模型,再通过微调技术使其适配多种业务场景。
- 构建多模态遥感大模型 :将多源遥感数据与有关文本、声音、视频、矢量等数据进行融合,充分利用多种数据知识,使模型真正理解遥感,包括单流结构和多流结构等多种架构形式,可面向理解任务和生成任务发展。
典型代表
- 紫东太初 :全球首个千亿参数多模态大模型,突破跨模态多任务自监督学习技术,实现多模态数据的统一表示与相互生成,形成了完整的智能表示、推理和生成能力。
- RemoteCLIP :第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义视觉特征以及对齐的文本嵌入,以实现无缝的下游应用。
- SkySense :通用的十亿级遥感基础模型,在 2150 万个时间序列的多模态遥感图像数据集上进行预训练,在涵盖 7 个遥感任务的 16 个数据集上展示了卓越的泛化能力。
- SkyScript :大规模遥感视觉语言数据集,包括 260 万个遥感图像 - 文本对,覆盖 2.9 万个不同的语义标签,可以助力 VLM 在遥感中的各种多模态任务发展。
- EarthMarker :北京理工大学研发的首个视觉提示遥感多模态大模型,支持多粒度的视觉提示和自然语言联合提示,可完成复杂视觉推理任务,尤其在遥感目标关系分析任务中性能超越 GPT-4V。
- HyperSIGMA :首个面向高光谱图像设计的基础模型,具备泛化能力强、任务迁移性强等特点,提出 Sparse Sampling Attention (SSA) 机制和空间 - 光谱双分支结构 + Spectral Enhancement Module (SEM),还构建了全球最大高光谱数据集 HyperGlobal-450K。
- 天慧 :武汉大学遥感信息工程学院自主研发的遥感学科教学垂域大模型,包括 “天知” 遥感视觉大模型 SkySense 和 “天思” 遥感语言大模型 SkyThink,可以赋能前、中、后全链路数智化升级。
应用领域
- 对地观测 :可用于精确地物分类、目标识别、变化检测等,帮助研究人员快速准确地获取地表信息,如土地利用类型、植被覆盖度、水体范围等,为资源调查、环境监测、城市规划等提供基础数据支持。
- 自然资源管理 :能够对自然资源的分布、数量、质量等进行有效的监测和评估,如森林资源的蓄积量估算、矿产资源的探测等,为合理开发和保护自然资源提供决策依据。
- 生态环境监测 :可以实时监测生态环境的变化,如大气污染、水污染、生态系统的演替等,及时发现环境问题,为环境保护和生态修复提供技术支持。
- 城市规划 :通过对遥感影像的分析,了解城市土地利用现状、交通流量等信息,协助城市规划者制定科学合理的发展规划,优化城市布局,提升城市运行效率。