iiisChuan-CSDN博客

原创 Pytorch分布式训练（DDP）

1、模型并行方式：如果模型特别大，GPU显存不够，无法将一个显存放在GPU上，需要把网络的不同模块放在不同GPU上，这样可以训练比较大的网络。2、数据并行方式：将整个模型放在一块GPU里，再复制到每一块GPU上，同时进行正向传播和反向误差传播。DDP的官方最佳实践是，，在下面介绍中，都会默认遵循这个pattern。举个例子：我有两台机子，每台8张显卡，那就是2x8=16个进程，并行数是16。

2025-04-14 21:05:40 891

原创分类指标汇总

混淆矩阵的每一行代表数据的真实类别，每一列代表预测类别。

2025-04-14 10:41:14 327

原创常用Linux命令整理

ls //查看当前目录下的所有目录和文件ls -a //查看当前目录下的所有目录和文件（包括隐藏的文件）ls -l //列表查看当前目录下的所有目录和文件（列表查看，显示更多信息），与命令"ll"效果一样。

2025-04-07 15:44:55 847

原创关于深度学习中的归一化和标准化

将数据转换为均值为 0、标准差为 1 的分布，注意：该操作只是对原始数据分布进行线性变化，不会改变数据的原始分布形状，得到的结果分布和原始分布是一样的，不一定是标准的正态分布。

2025-04-01 12:02:50 234

原创 tmux自学笔记

tmux new -s [session-name] （指定session名字）tmux detach (将当前session与窗口分离，session转到后台执行）先按下，ctrl+b，松开按键，再按下d）或者ctrl+d关闭该session的所有窗口来退出该sessiontmux ls。

2025-03-28 12:04:31 480

原来的softmax函数是T = 1的特例。T越高，softmax的output probability distribution越趋于平滑，其分布的熵越大，负标签携带的信息会被相对地放大，模型训练将更加关注负标签。损失函数的第一项是教师网络产生的logits经过高温T的softmax输出来作为soft target，学生网络在相同高温T下的softmax输出，这两者做cross entropy loss；步骤是先训练教师网络，然后将教师网络的soft target高温蒸馏给学生网络。

2025-03-07 15:32:43 261

iiisChuan的博客