LLaRA项目安装与配置指南
1. 项目基础介绍
LLaRA(Language and Vision Learning for Robot Applications)是一个旨在增强机器人视觉语言策略学习数据的项目。它通过超级增强机器人学习数据,解决现实世界中的未见任务。该项目是ICLR'25会议论文的官方实现,由Stony Brook University和University of Wisconsin-Madison的研究人员共同开发。
主要编程语言:Python
2. 项目使用的关键技术和框架
- LLaVA模型:一种用于机器人视觉语言学习的模型。
- VIMABench:用于机器人学习的基准测试工具。
- PyTorch:一个流行的深度学习框架,用于构建和训练神经网络模型。
- MaskRCNN:一个用于目标检测和分割的深度学习模型。
3. 项目安装和配置的准备工作
在开始安装之前,请确保您的系统中已经安装了以下依赖项:
- Python 3.10
- CUDA 12.1
- Git
详细安装步骤
-
克隆项目仓库:
git clone https://github.com/LostXine/LLaRA.git cd LLaRA
-
设置Python环境:
conda create -n llara python=3.10 -y conda activate llara
-
安装PyTorch及其依赖项:
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia conda install cuda=12.1 cuda-compiler=12.1 cuda-nvcc=12.1 cuda-version=12.1 -c nvidia
-
安装LLaVA:
cd train-llava pip install -e ".[train]" pip install flash-attn==2.7.3 --no-build-isolation
-
安装VIMABench:
git clone https://github.com/vimalabs/VimaBench cd VimaBench pip install 'pip<24.1' # 安装gym包 pip install -e .
-
下载预训练模型并放入
checkpoints
文件夹。 -
运行评估:
cd eval python3 eval-llara.py D-inBC-AuxB-VIMA-80k --model-path ../checkpoints/llava-1.5-7b-llara-D-inBC-Aux-B-VIMA-80k --prompt-mode hso
-
查看结果:
结果将保存在
results
目录下的相应文件中。
按照上述步骤,您应该能够成功安装和配置LLaRA项目。如果在安装过程中遇到任何问题,请查看项目文档或提交GitHub问题。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考