LLaRA项目安装与配置指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00379/article/details/147325397

LLaRA项目安装与配置指南

LLaRA 🔥[ICLR'25] LLaRA: Supercharging Robot Learning Data for Vision-Language Policy 项目地址: https://gitcode.com/gh_mirrors/ll/LLaRA

1. 项目基础介绍

LLaRA（Language and Vision Learning for Robot Applications）是一个旨在增强机器人视觉语言策略学习数据的项目。它通过超级增强机器人学习数据，解决现实世界中的未见任务。该项目是ICLR'25会议论文的官方实现，由Stony Brook University和University of Wisconsin-Madison的研究人员共同开发。

主要编程语言：Python

2. 项目使用的关键技术和框架

LLaVA模型：一种用于机器人视觉语言学习的模型。
VIMABench：用于机器人学习的基准测试工具。
PyTorch：一个流行的深度学习框架，用于构建和训练神经网络模型。
MaskRCNN：一个用于目标检测和分割的深度学习模型。

3. 项目安装和配置的准备工作

在开始安装之前，请确保您的系统中已经安装了以下依赖项：

Python 3.10
CUDA 12.1
Git

详细安装步骤

克隆项目仓库：

git clone https://github.com/LostXine/LLaRA.git
cd LLaRA

设置Python环境：

conda create -n llara python=3.10 -y
conda activate llara

安装PyTorch及其依赖项：

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
conda install cuda=12.1 cuda-compiler=12.1 cuda-nvcc=12.1 cuda-version=12.1 -c nvidia

安装LLaVA：

cd train-llava
pip install -e ".[train]"
pip install flash-attn==2.7.3 --no-build-isolation

安装VIMABench：

git clone https://github.com/vimalabs/VimaBench
cd VimaBench
pip install 'pip<24.1' # 安装gym包
pip install -e .

下载预训练模型并放入checkpoints文件夹。

运行评估：

cd eval
python3 eval-llara.py D-inBC-AuxB-VIMA-80k --model-path ../checkpoints/llava-1.5-7b-llara-D-inBC-Aux-B-VIMA-80k --prompt-mode hso

查看结果：

结果将保存在results目录下的相应文件中。

按照上述步骤，您应该能够成功安装和配置LLaRA项目。如果在安装过程中遇到任何问题，请查看项目文档或提交GitHub问题。

LLaRA 🔥[ICLR'25] LLaRA: Supercharging Robot Learning Data for Vision-Language Policy 项目地址: https://gitcode.com/gh_mirrors/ll/LLaRA

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考