全模型微调 vs LoRA 微调 vs RAG

Tadas-Gao

已于 2025-05-31 20:57:49 修改

阅读量291

点赞数 6

分类专栏：大模型文章标签：人工智能大模型 LLM

于 2025-05-31 20:34:45 首次发布

本文链接：https://blog.csdn.net/jsntghf/article/details/148355287

版权

大模型专栏收录该内容

19 篇文章

订阅专栏

下图是一个全模型微调、LoRA 微调和 RAG 的可视化呈现，这三种技术都用于通过额外数据来增强现有模型的知识储备。

全模型微调

微调指的是在预训练模型的基础上，针对新数据集调整权重参数以提升模型性能。

全模型微调（Full Model Fine-tuning）是迁移学习中的一种方法，指在预训练模型的基础上，对整个模型的所有参数进行进一步调整以适应特定下游任务的过程。与仅微调部分层（如分类头）不同，全模型微调允许所有层参与学习新任务的特征表示。

核心特点

参数调整范围：覆盖预训练模型的全部可训练参数，包括嵌入层、注意力机制、全连接层等。
数据需求：通常需要较多任务相关数据，以避免过度拟合预训练知识。
计算成本：由于需更新全部参数，计算资源和时间消耗较高。

适用场景

任务与预训练领域差异较大：如从通用文本理解（BERT）迁移到医疗文本分类。
数据量充足：拥有足够标注数据支持大规模参数更新。
资源允许：具备足够的GPU/TPU算力支持全参数训练。

实现示例（PyTorch）

from transformers import BertForSequenceClassification, AdamW

# 加载预训练模型
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')

# 定义优化器（优化所有参数）
optimizer = AdamW(model.parameters(), lr=5e-5)

# 训练循环
for batch in dataloader:
    outputs = model(**batch)
    loss = outputs.loss
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

尽管这种微调技术已成功应用多年，但当我们在更庞大的模型（例如大语言模型）上使用时，问题便随之产生，主要原因在于：

它们的规模
微调全部权重涉及的成本
维护所有微调模型涉及的成本

LoRA 微调

LoRA微调解决了传统微调的局限性。其核心思想是将原始模型的部分或全部权重矩阵分解为低秩矩阵并进行训练。例如在下图中，下半部分代表大型预训练模型，上半部分代表带有LoRA层的模型。

LoRA（Low-Rank Adaptation）是一种针对大型预训练模型（如GPT、BERT）的高效微调技术。其核心思想是通过低秩矩阵分解，在原始模型参数旁添加可训练的旁路矩阵，而非直接修改原始参数，从而大幅减少微调时的参数量和计算成本。

核心思路是仅训练LoRA网络并冻结大模型。

观察上述图示，你可能会想：LoRA模型的神经元数量比原始模型还多，这如何能节省资源？要理解这一点，必须明确神经元与内存占用无关，它们仅用于展示层与层之间的维度变换。

真正占用内存的是权重矩阵（或两层之间的连接）。因此，我们需要对比的其实是这些连接关系：

再看看上面的图示，可以明显看出LoRA网络的连接数量相对较少。

核心原理

假设预训练模型的权重矩阵为 $$W \in \mathbb{R}^{d \times k}$$ LoRA引入两个低秩矩阵 $A \in \mathbb{R}^{d \times r}$ 和 $B \in {R}^{r \times k}$（其中 $r \ll min(d,k)$），使得前向传播时： $h = Wx + BAx$ 其中：

$A$ 初始化为随机高斯分布
$B$ 初始化为零矩阵
微调时仅更新 $A$ 和 $B$，冻结原始权重 $W$

# PyTorch实现示例
class LoRALayer(nn.Module):
    def __init__(self, original_layer, rank=8):
        super().__init__()
        self.original = original_layer
        self.lora_A = nn.Parameter(torch.randn(original_layer.in_features, rank))
        self.lora_B = nn.Parameter(torch.zeros(rank, original_layer.out_features))
        
    def forward(self, x):
        return self.original(x) + x @ self.lora_A @ self.lora_B