PyTorch单机多卡训练（DataParallel）

AI大权

于 2025-03-28 12:21:25 发布

阅读量583

点赞数 3

分类专栏：计算机视觉文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/old_power/article/details/146592407

版权

计算机视觉专栏收录该内容

58 篇文章

订阅专栏

PyTorch单机多卡训练

nn.DataParallel 是 PyTorch 中用于多GPU并行训练的一个模块，它的主要作用是将一个模型自动拆分到多个GPU上，并行处理输入数据，从而加速训练过程。以下是它的核心功能和工作原理：
在这里插入图片描述

1、主要作用

数据并行（Data Parallelism）
- 将同一个模型复制到多个GPU上（每个GPU拥有相同的模型副本）。
- 将输入的一个批次（batch）数据均分到各个GPU上，每个GPU独立处理一部分数据。
- 最后汇总所有GPU的计算结果（如梯度），合并后更新主模型参数。
自动分发和聚合
- 自动处理数据的分发（从主GPU到其他GPU）和结果的聚合（如梯度求和、损失平均等）。
- 用户无需手动管理多GPU间的数据传输。
单机多卡训练
- 适用于单台机器上有多块GPU的场景（不支持跨机器分布式训练）。

2、工作原理

前向传播
- 主GPU（通常是cuda:0）将模型复制到所有指定的GPU上。
- 输入的一个batch被均分为子batch，分发到各个GPU。
- 每个GPU独立计算子batch的输出。
反向传播
- 各GPU计算本地梯度。
- 主GPU聚合所有梯度（默认是求平均），并更新主模型的参数。
同步更新
- 所有GPU的模型副本始终保持一致（通过同步梯度更新实现）。

3、代码示例

import torch.nn as nn

# 定义模型
model = MyModel()  

# 启用多GPU并行（假设有4块GPU）
model = nn.DataParallel(model, device_ids=[0, 1, 2, 3])  

# 将模型放到GPU上
model = model.cuda()  

# 正常训练
outputs = model(inputs)  # inputs会自动分发到多GPU
loss = criterion(outputs, labels)
loss.backward()  # 梯度自动聚合
optimizer.step()

4、优点

简单易用：只需一行代码即可实现多GPU训练。
加速训练：线性加速（理想情况下，N块GPU速度提升接近N倍）。

5、局限性

单进程多线程
- 基于Python的多线程实现，可能受GIL（全局解释器锁）限制，效率不如多进程（如DistributedDataParallel）。
主GPU瓶颈
- 梯度聚合和参数更新在主GPU上进行，可能导致显存或计算成为瓶颈。
不支持跨机器
- 仅适用于单机多卡，分布式训练需用torch.nn.parallel.DistributedDataParallel。