Llama3-Tutorial之XTuner微调Llama3图片理解多模态
基于 Llama3-8B-Instruct 和 XTuner 团队预训练好的 Image Projector 微调自己的多模态图文理解模型 LLaVA。
参考:
https://github.com/SmartFlowAI/Llama3-Tutorial
1. 环境、模型、数据准备
1.1 配置环境
使用如下指令便可以安装好一个 python=3.10 pytorch=2.1.2+cu121 的基础环境。
conda create -n llama3 python=3.10
conda activate llama3
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
接下来我们安装 XTuner。
cd ~
git clone -b v0.1.18 https://github.com/InternLM/XTuner
cd XTuner
pip install -e .[all]
如果已经配置好了环境,在这里也可以选择直接执行 conda activate llama3
以进入环境。
最后我们 clone 本教程仓库。
cd ~
git clone https://github.com/SmartFlowAI/Llama3-Tutorial
1.2 模型准备
1.2.1 准备 Llama3 权重
在微调开始前,我们首先来准备 Llama3-8B-Instruct 模型权重。
- InternStudio