报错信息
[E ProcessGroupNCCL.cpp:828] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(SeqNum=5, OpType=BROADCAST, Timeout(ms)=1800000) ran for 1802615 milliseconds before timing out
可能的原因
可能的解决办法
bash中输入更改环境变量
export NCCL_P2P_LEVEL=NVL
// 或者
export NCCL_P2P_DISABLE=1
export NCCL_IB_DISABLE=1
export NCCL_DEBUG=info
export NCCL_SOCKET_IFNAME=eth0
NCCL相关环境变量说明
NCCL为用于GPU分布式训练的集合通信框架
官方说明文档:Using NCCL — NCCL 2.19.3 documentation
<