- 博客(7)
- 收藏
- 关注
原创 Pytorch分布式训练(DDP)
1、模型并行方式:如果模型特别大,GPU显存不够,无法将一个显存放在GPU上,需要把网络的不同模块放在不同GPU上,这样可以训练比较大的网络。2、数据并行方式:将整个模型放在一块GPU里,再复制到每一块GPU上,同时进行正向传播和反向误差传播。DDP的官方最佳实践是,,在下面介绍中,都会默认遵循这个pattern。举个例子:我有两台机子,每台8张显卡,那就是2x8=16个进程,并行数是16。
2025-04-14 21:05:40
891
原创 常用Linux命令整理
ls //查看当前目录下的所有目录和文件ls -a //查看当前目录下的所有目录和文件(包括隐藏的文件)ls -l //列表查看当前目录下的所有目录和文件(列表查看,显示更多信息),与命令"ll"效果一样。
2025-04-07 15:44:55
847
原创 关于深度学习中的归一化和标准化
将数据转换为均值为 0、标准差为 1 的分布,注意:该操作只是对原始数据分布进行线性变化,不会改变数据的原始分布形状,得到的结果分布和原始分布是一样的,不一定是标准的正态分布。
2025-04-01 12:02:50
234
原创 tmux自学笔记
tmux new -s [session-name] (指定session名字)tmux detach (将当前session与窗口分离,session转到后台执行)先按下,ctrl+b,松开按键,再按下d)或者ctrl+d关闭该session的所有窗口来退出该sessiontmux ls。
2025-03-28 12:04:31
480
原创 知识蒸馏学习笔记
原来的softmax函数是T = 1的特例。T越高,softmax的output probability distribution越趋于平滑,其分布的熵越大,负标签携带的信息会被相对地放大,模型训练将更加关注负标签。损失函数的第一项是教师网络产生的logits经过高温T的softmax输出来作为soft target,学生网络在相同高温T下的softmax输出,这两者做cross entropy loss;步骤是先训练教师网络,然后将教师网络的soft target高温蒸馏给学生网络。
2025-03-07 15:32:43
261
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人