关于#深度学习#的问题：在DDP中使用预训练网络，就必须要设置ddp_find_unused_parameters_True吗

我有个疑问，在DDP中使用预训练网络，并将其冻住，不让更新参数，就必须要设置ddp_find_unused_parameters_True吗？但是这个又和torch.utils.checkpoint 这个冲突了，这怎么解决呢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-03-18 11:26
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

关于#深度学习#的问题：在DDP中使用预训练网络，就必须要设置ddp_find_unused_parameters_True吗

你好！DDP（Data Parallelism）是 PyTorch 中的一种并行训练算法，用于在多个 GPU 上并行训练模型。预训练网络是指已经训练好的网络，可以作为新的网络的初始化参数。

在使用 DDP 时，ddp_find_unused_parameters 是一个可选参数，用于控制 DDP 是否在每个 GPU 上查找未使用的参数。如果设置为 True，DDP 会在每个 GPU 上查找未使用的参数，并将其标记为 unused。这样可以避免在每个 GPU 上都复制这些参数，从而减少内存使用量。

在你的情况下，你使用了预训练网络，并将其冻住，不让更新参数。在这种情况下，你不需要设置 ddp_find_unused_parameters 为 True。因为你已经冻住了网络的参数，DDP 不需要查找未使用的参数。

torch.utils.checkpoint 是 PyTorch 中的一个模块，用于实现模型的 checkpointing（快照）和 resume（恢复）。它可以帮助你在训练过程中保存模型的状态，并在下次训练时恢复到之前的状态。

因此，在使用 DDP 时，ddp_find_unused_parameters 和 torch.utils.checkpoint 是两个独立的概念，用于解决不同的问题。如果你不需要查找未使用的参数，可以设置 ddp_find_unused_parameters 为 False。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【解决警告】多卡DDP分布式训练报错Warning: find_unused_parameters=True was specified in DDP constructor, but did not
2024-03-18 20:00

一只菟葵的博客解决警告：多卡DDP分布式训练报错Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra ...
MMdetection多卡训练时出现find_unused_parameters问题
2025-01-21 17:17

Dvw.的博客在MMdetection中训练自定义模型，出现find_unused_parameters报错。大概率是因为自定义模型中存在加载预训练权重。
Warning: find_unused_parameters=True was specified in DDP constructor……
2022-05-27 00:14

Xavier Jiezou的博客 Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters. This flag results in an extra traversal of the autograd graph every iteration, which can ...
Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused p
2022-03-16 00:46

AAliuxiaolei的博客 https://pytorch-lightning.readthedocs.io/en/latest/guides/speed.html#when-using-ddp-set-find-unused-parameters-false
手把手写深度学习(29)：将DDP训练代码改成DeepSpeed
2024-11-12 21:15

沉迷单车的追风少年的博客 deepspeed已经成为了大模型时代训练模型的常规武器，这篇博客以一个基于DDP的 Stable Diffusion模型训练为例，讲解如何从将DDP训练代码改成DeepSpeed。
mmpose冻结参数训练，如何添加find_unused_parameters参数
2023-06-30 20:24

巴啦啦魔仙变！！的博客即可冻结前7层的参数。要注意对于多卡训练来说还需要添加。在backbone下方添加。看图片中代码的位置。
【异常错误】 Expected to have finished reduction in the prior iteration before star、find_unused_parameters
2024-04-04 11:23

Pengsen Ma的博客如果模型的输出有不需要进行...如果你的代码运行后卡住某个地方不动，基本上就是该参数的问题，设置为find_unused_parameters=True 就可以了find_unused_parameters=True的设置会带来额外的运行时开销（而且还不小）。
PyTorch 深度剖析：并行训练的 DP 和 DDP 分别在什么情况下使用及实例
2022-06-14 10:57

算法码上来的博客 ↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读这篇文章从应用的角度出发，介绍 DP 和 DDP 分别在什么情况下使用，以及各自的使用方法。以及 DDP 的保存和加载模型的策略，和如何同时使用 DDP 和模型...
深度学习中的踩过的一些坑
2022-06-19 23:07

_ICE_的博客 深度学习遇到的一些bug和问题不定时更新（希望更新的能越来越少碰不到bug最好）
DDP分布式训练中遇到的一些问题
2023-06-11 16:27

xx_xjm的博客 2：类似于layer_norm这样的操作是无需进行分布式通信的，也无法进行分布式通信，所以在DDP的时候必须把find_unused_parameters设置为True。这个时候可以在命令行前面加上TORCH_DISTRIBUTED_DEBUG=DETAIL, 这样，将找...
PyTorch 深度学习实战（37）：分布式训练（DP/DDP/Deepspeed）实战
2025-04-18 18:13

进取星辰的博客但存在明显瓶颈DDP：生产环境首选，支持多机多卡DeepSpeed：专为超大模型设计，提供ZeRO优化典型使用场景单机4卡以下：DDP多机训练：DDP + torchrun10B+参数模型：DeepSpeed + ZeRO-3在下一篇文章中，我们将深入解析...
【深度学习实战（27）】「分布式训练」DDP单机多卡并行指南
2024-04-30 11:50

BILLY BILLY的博客【深度学习实战（27）】「分布式训练」DDP单机多卡并行指南
『PyTorch学习笔记』分布式深度学习训练中的数据并行(DP/DDP) VS 模型并行
2023-11-30 16:23

AI大模型前沿研究的博客要在大型数据集上训练复杂的现代深度学习模型，必须使用多节点训练，否则会花费很长时间。在分布式深度学习训练中，人们可能总会看到数据并行和模型并行。在这篇博文中，将讨论这两种深度学习并行方法的理论、逻辑和...
DDP中有参数未参与损失计算的问题
2025-03-16 18:49

最厉害的小白啊的博客【代码】DDP中有参数未参与损失计算的问题。
DDP问题记录
2024-07-19 15:16

帅气的阿飞的博客最简单的是直接设置True，但是会显著降低模型训练效率。我遇到的是路径错误，是因为不同库的CUDA HOME前缀不一致导致的，只需要根据报错信息推测出前缀，在环境变量中临时修改CUDA路径即可。
`model` 和 `model_without_ddp`
2024-12-29 20:34

朋也透william的博客 find_unused_parameters=True: 启用时，DDP 会查找未使用的参数，适用于某些分支模型结构（如部分参数可能未参与梯度计算）。模型在 DDP 包装后，前向传播和反向传播会涉及通信开销（如 AllReduce 操作），这是...
学习使用DDP: DistributedDataParallel
2023-12-18 02:12

BlueagleAI的博客在分布式训练中，主进程通常用于协调其他进程的工作。LOCAL_RANK和LOCAL_SIZE: 这两个环境变量是 torch.distributed.launch 工具特有的，用于指定当前进程在本地节点上的 local_rank 和节点上 GPU 的总数量 local_...
简单介绍pytorch中分布式训练DDP使用 (结合实例，快速入门)
2022-03-08 23:06

栋次大次的博客 pytorch中分布式训练DDP的介绍。包括DDP的原理，一些基础概念，和DP的区别，多卡的启动方式。最后根据voxceleb_trainer实例代码进行简单分析
解决DDP的参数未参与梯度计算
2023-10-06 13:50

billbliss的博客将find_unused_parameters改成False之后，如果出现模型有些参数未参与loss计算等错误。或者，乘以0与模型的loss进行相加，使未用到的参数也参入了loss计算。可以用环境变量来debug查看log。可以将这些未用到的参数...
[W reducer.cpp:1289]是什么？
2024-05-23 10:39

鱼儿会飞吗的博客总之,这个警告提醒用户注意DDP中"find_unused_parameters=True"这个参数的潜在问题,并建议用户根据自己的模型情况来决定是否需要开启这个功能。因此,这个警告提醒用户需要仔细检查自己的模型和训练代码,确保DDP没有...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月18日

关于#深度学习#的问题：在DDP中使用预训练网络，就必须要设置ddp_find_unused_parameters_True吗

5条回答 默认 最新

关于#深度学习#的问题：在DDP中使用预训练网络，就必须要设置ddp_find_unused_parameters_True吗

问题事件

5条回答默认最新