【极速版 -- 大模型入门到进阶】LORA：大模型轻量级微调

CODE_RabbitV

已于 2025-03-28 22:21:18 修改

阅读量773

点赞数 12

分类专栏：大模型入门文章标签：语言模型 gpt

于 2025-03-28 22:20:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/code_rabbitv/article/details/146610839

版权

大模型入门专栏收录该内容

11 篇文章

订阅专栏

文章目录

论文指路：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

🌊 有没有低成本的方法微调大模型？

2021年微软提出 LORA ：LOW-RANK ADAPTATION 低秩适配
- 【什么是秩？】一个矩阵的秩是指矩阵中线性独立的行或列的最大数目；也就是说 一个矩阵的秩越大，它包含的有效信息就越多

🌊 LoRA 的核心思想

LoRA通过优化在适应过程中 FC 层权重变化 ( $\Delta w \in \mathbb{R}^{m\times n}$ ) 的秩分解矩阵 ( $\in \mathbb{R}^{m\times r} \times B\in \mathbb{R}^{r\times n}$ )，来间接调整神经网络中部分层的权重 ( $w$ ) 。不修改预先训练好的权重，而是通过引入一个低秩的矩阵来实现对这些层的适应调整
- $\min(m,n)$

用更小的参数空间存储模型参数变化量 $\Delta w$
- $\Delta w$ ：模型参数变化量，也就是对原参数 $w$ 变化 $\Delta w$ 可以适配新任务。LoRA 用 A 和 B 计算获得模型参数变化量 $\Delta w$ ，叠加到原参数 $w$ 上

🌊 LoRA 的初始化和 $r$ 的值设定

用随机高斯分布初始化 $A$ ，用 0 矩阵初始化 $B$ , 保证训练的开始此旁路矩阵依然是 0 矩阵

对于一般的任务， $r = 1, 2, 4, ...$ 就足够了。而一些领域差距比较大的任务可能需要更大的 $r$

🌊 LoRA 实战：LoraConfig参数详解

目前 LORA 已经被 HuggingFace 集成在了 PEFT（Parameter-Efficient Fine-Tuning）代码库里
所以，使用也非常简单

from peft import get_peft_config, get_peft_model, LoraConfig, TaskType

# preModel = ....from_pretrained(".. bert-base-uncased ..")  # 加载你的预训练模型

peft_config = LoraConfig(
    r=4,  # LoRA 维数
    lora_alpha=8,  # ΔW 按 α / r 缩放
	target_modules=["", "", ...],  # 对哪些模块进行微调
    lora_dropout=0.1  # 默认值为 0
)
model = get_peft_model(preModel, peft_config)  # 预训练模型 -> 加好了 LoRA 之后的模型

参考资料: 【LoRA&CN全解析】, 【知乎高赞-大模型轻量级微调】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。