- 博客(19)
- 收藏
- 关注
原创 DL简记5---如何评估大模型在训练或推理时每个batch的GPU显存利用率和运行时间?
如何评估大模型在训练或推理时每个batch的GPU显存利用率和运行时间?
2025-05-08 21:27:43
220
原创 DL简记3---从GPU服务器快速传大量数据到本地
在工作中,经常会遇到需要将服务器上大量数据快速传输到本地的场景。无论你是程序开发者、数据科学家还是系统管理员,选择一套既高效又安全的数据传输方案都是十分重要的。本文将介绍三种常用方法,并总结各自的优缺点和适用场景,帮助你根据实际需求选择合适的传输方案。
2025-04-16 18:04:51
799
原创 DL简记2---深度学习模型训练过程中Checkpoint的应用
Checkpoint技术通常用于训练深度学习模型时,定期保存模型的状态,以便在训练过程中出现中断时可以从最近的检查点(checkpoint)恢复,继续训练而不需要从头开始。它可以有效避免因长时间训练或系统崩溃而丢失训练进度。定期保存:每训练一定数量的 epoch 后,模型会保存一个 checkpoint,包含模型权重、优化器状态、当前训练状态等。恢复训练:当训练中断或想要恢复训练时,通过调用resume()方法加载 checkpoint 文件,恢复训练的状态,包括模型参数和优化器状态。保存超参数。
2025-03-28 16:31:01
1001
原创 Google 云计算技术与原理---BigTable深入浅出
本ppt是我在自学时制作的ppt,主要内容为BigTable的内容,供大家参考,如果觉得有用,欢迎点赞,收藏,转发,评估。我是上交的Alex,欢迎讨论!
2024-12-23 21:10:21
240
原创 Google 云计算技术与原理---Dremel深入浅出
以下内容是我在教别人Dremel时制作的ppt,希望能够帮助到你!如果觉得可以点赞,收藏,转发,制作ppt不易,感谢支持!
2024-12-23 20:58:30
142
原创 DL简记1---深度学习分布式训练模型的步骤及实现
对于很多数据量比较大且工作任务比较复杂的深度学习模型,只用一张GPU显卡训练太慢,我们就会想到用多张GPU来加速我们模型的训练。下面主要展示一台GPU服务器(3张3090GPU显卡)的应用实例,对于集群服务器(多机器)还是有所差异。1. 分布式训练的核心在于:- 初始化进程组;- 数据分片;- 模型梯度同步。2. torch.distributed提供了完整的分布式支持,结合 NCCL 实现高效的 GPU间通信。3. 使用torchrun自动管理进程,简化了分布式训练的启动和配置。
2024-11-21 17:12:00
374
原创 Latex---长描述(例如Journal paper)和短描述(例如conference paper)一键切换的两种方法
我们平时在进行论文写作的时候会面临一个问题,就是对于conference paper通常要求语句比较凝练,句子描述比较短,但是对于Journal paper通常描述的比较详细,我们将conference paper转换为较长的Journal paper通常需要较长的时间,因此在写论文的时候就写好详细的和非详细的,这样就能节省很多时间,所有下面的方法就是通过设置true/false来一键在conference paper和Journal paper中一键切换。
2024-11-17 10:20:16
409
转载 MIT实习前置培训笔记8---Mac安装NVM管理node版本
NVM(Node Version Manager)是一个用于管理多个Node.js版本的工具。它允许开发者在同一台机器上安装和切换不同版本的Node.js,以便在不同的项目中使用不同的Node.js版本。macOS用户可以使用homebrew来安装NVM
2024-07-26 16:55:15
137
原创 Git的常用指令和使用以及一些常见问题的解决方案
一般本地写完代码以后都需要上传到代码仓库进行存储,一方面是为了长期存储代码,方便代码项目管理,另一方面方便项目的交流合作。
2024-07-25 13:35:50
660
原创 MIT实习前置培训笔记6---常用的React Hooks训练
前言:前面几节已经介绍了useState和useContext的Hooks,接下来介绍其它几个Hooks的使用。
2024-07-22 19:56:06
1144
原创 MIT实习前置培训笔记5---React组件通信与插槽训练
React组件主要分为两种,一种是React Dom组件(react支持的所有html和svg标签),另一种是react组件。本节主要介绍组件间的通信与插槽操作。
2024-07-22 16:36:49
857
原创 MIT实习前置培训笔记3---ES6标准下的JavaScript语法基础(含语法demo的验证结果)
ES6++标准下的JavaScript语法基础(含语法demo的验证结果)
2024-05-30 11:00:41
417
原创 MIT实习前置培训笔记2---JS基础(在React Demo的基础上实现斐波那契数列)
本demo主要是用于学习react中js的基本使用方法,以及组件的调用等
2024-05-29 03:06:33
704
1
原创 MIT实习前置培训笔记1---React 环境搭建(两种方式构建一个简易的React Demo)
使用两种不同的方式快速搭建一个react 项目demo
2024-05-28 16:22:22
1160
原创 消息队列RabbitMq安装教程(Windows版)
如果不是阿里云新用户,无法试用免费的rabbitmq,那么可以考虑使用开源的rabbitmq。
2023-09-23 17:10:11
187
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人