大模型微调加速方法探究

图片

通过本文可以了解:LoRA模型加速原理、peft包使用、Autocust自动混合精度、Accelerate和deepspeed加速、多GPU分布式训练等大模型加速训练和微调的方法和代码应用示例。

图片

近期大模型层出不穷,大家对于大模型的微调也在跃跃欲试,像斯坦福的Alpaca[1], 清华的ChatGLM[2],中文的Chinese-Vicuna[3],让我这样的普通玩家也能训练自己的微调模型。

在微调和推理的时候仍然需要加速,有哪些方法可以加速微调呢?

Part1LoRA

低秩矩阵分解 LoRA[4]原理:冻结预训练模型权重,并将可训练的秩分解矩阵注入到Transformer层的每个权重中,大大减少了下游任务的可训练参数数量。LoRA 开源代码[5]见文末。

原理图:图片

公式:图片

结合原理图和公式,我们可以很容易明白LoRA了:

左侧是预训练模型的权重,输入输出维度都是d,在训练期间被冻结,不接受梯度更新。

右侧,对A使用随机的高斯初始化,B在训练开始时为零,r是秩,会对△Wx做缩放 α/r。

HuggingFace的包peft[6]对LoRA做了封装支持,几步即可使用:

在这里插入图片描述

论文中提到了LoRA的诸多优点:图片

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值