Sa2VA项目安装与配置指南

Sa2VA项目安装与配置指南

Sa2VA 🔥 Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Sa2VA 项目地址: https://gitcode.com/gh_mirrors/sa/Sa2VA

1. 项目基础介绍

Sa2VA项目是一个用于图像和视频密集式接地理解的开源模型。该模型统一了文本、图像和视频到一个共享的大型语言模型(LLM)标记空间中,结合了SAM-2基础视频分割模型和LLaVA先进视觉语言模型。主要使用的编程语言是Python。

2. 项目使用的关键技术和框架

  • SAM-2: 一种基础的视频分割模型。
  • LLaVA: 一种先进的视觉语言模型。
  • PyTorch: 用于深度学习的框架。
  • MMCV: 一个开源计算机视觉工具箱。
  • Transformers: 用于处理变换器的库,常用于NLP任务。
  • Peft: 用于模型微调的库。

3. 项目安装和配置的准备工作

在开始安装之前,请确保您的系统满足以下要求:

  • Python 3.10
  • PyTorch 2.3.1
  • CUDA 12.1
  • MMCV 2.1.0
  • Transformers
  • Peft

安装步骤

  1. 创建Python虚拟环境:

    conda create -n vlm python=3.10
    conda activate vlm
    
  2. 安装PyTorch和CUDA:

    conda install pytorch==2.3.1 torchvision==0.18.1 pytorch-cuda=12.1 cuda -c pytorch  -c nvidia/label/cuda-12.1.0 -c nvidia/label/cuda-12.1.1
    
  3. 安装MMCV:

    pip install mmcv==2.1.0 -f https://download.openmmlab.com/mmcv/dist/cu121/torch2.3/index.html
    
  4. 安装项目依赖:

    pip install -r requirements.txt
    
  5. 下载预训练模型: 将以下预训练模型下载并放置在项目的pretrained目录中:

    • sam2_hiera_large.pt
    • InternVL2_5-1B
    • InternVL2_5-4B

    其余模型可以从HuggingFace下载。

  6. 准备数据集: 下载训练数据集并将它们解压到data目录中。确保数据结构符合项目要求。

  7. 训练模型: 使用以下命令开始训练(建议使用至少8个A100 GPU):

    bash tools/dist.sh train projects/llava_sam2/configs/sa2va_4b.py 8
    
  8. 转换训练模型到HuggingFace格式: 训练完成后,使用以下命令将模型转换为HuggingFace格式:

    python projects/llava_sam2/hf/convert_to_hf.py projects/llava_sam2/configs/sa2va_4b.py --pth-model PATH_TO_PTH_MODEL --save-path PATH_TO_SAVE_FOLDER
    

按照以上步骤操作,您应该能够成功安装和配置Sa2VA项目。

Sa2VA 🔥 Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Sa2VA 项目地址: https://gitcode.com/gh_mirrors/sa/Sa2VA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾泉希

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值