360-LLaMA-Factory 使用教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00639/article/details/147036253

360-LLaMA-Factory 使用教程

360-LLaMA-Factory adds Sequence Parallelism into LLaMA-Factory 项目地址: https://gitcode.com/gh_mirrors/36/360-LLaMA-Factory

1. 项目介绍

360-LLaMA-Factory 是基于 LLaMA-Factory 的开源项目，它引入了序列并行性（Sequence Parallelism，简称 SP）技术。这种技术能够有效提升大型语言模型训练的性能，尤其是在处理长序列时。项目在保留 LLaMA-Factory 原有功能的基础上，通过最小的代码改动实现了序列并行性，具有高度的模块化，并经过了正确性验证。

2. 项目快速启动

在开始之前，请确保您的环境中已安装 Python 3.11。

新建 Python 环境

conda create -n 360-llama-factory python=3.11 -y

激活环境：

conda activate 360-llama-factory

克隆代码库

git clone https://github.com/Qihoo360/360-LLaMA-Factory.git
cd 360-LLaMA-Factory

安装依赖

pip install -e ".[torch,metrics,deepspeed]"

配置文件

在配置文件中设置 sequence_parallel_size 和 cutoff_len：

sequence_parallel_size: 4
cutoff_len: 128000

或者，在命令行中设置这些参数：

deepspeed --hostfile=8nodes.host src/train.py \
--sequence_parallel_size 4 \
--cutoff_len 128000 \
...

运行训练

使用 DeepSpeed 启动训练：

deepspeed --hostfile=8nodes.host src/train.py

3. 应用案例和最佳实践

以下是使用 360-LLaMA-Factory 的一些应用案例和最佳实践：

序列并行性训练：通过设置 sequence_parallel_size 参数，可以在多个 GPU 上并行处理同一序列的数据，从而提高训练效率。
参数配置：合理设置 cutoff_len 参数以确保数据能够被正确填充和处理。
性能优化：可以通过一些自定义的优化技巧（如注释 logtis = logits.float()，使用 liger kernel，DPO 预计算等）来进一步提升训练性能。