蓝海星梦-CSDN博客

原创【论文笔记】LLaVA——指令微调赋能多模态大模型

LLaVA 是一种大型多模态模型，通过指令微调将视觉编码器与大型语言模型（LLM）相结合，显著提升了视觉和语言任务的性能，尤其在多模态对话和指令遵循方面表现出色。

2025-04-02 21:29:17 1251 1

原创【DeepSeek开源周】Day 5：3FS & Smallpond 学习笔记

Fire-Flyer File System（3FS）是一个高性能分布式文件系统，旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络，提供一个共享存储层，从而简化分布式应用程序的开发。

2025-03-20 09:09:48 873

原创【DeepSeek开源周】Day 4：DualPipe & EPLB 学习笔记

DualPipe 是一种创新的双向流水线并行算法。它通过在流水线的两端同时注入微批次，实现了前向和反向传播的完全重叠，从而大幅减少了流水线空闲时间（Pipeline Bubble），显著提高了计算资源的利用率。EPLB（Expert Parallelism Load Balancer）则是一种专家并行负载均衡算法。通过冗余专家策略和分组限制专家路由，优化了专家并行（EP）中的负载分配，确保不同 GPU 之间的负载均衡，提高训练效率。

2025-03-19 08:15:42 2350

原创【DeepSeek开源周】Day 3：DeepGEMM 学习笔记

DeepGEMM 是一个专为 NVIDIA Hopper 架构设计的高效 FP8 矩阵乘法库，支持普通和混合专家模型（MoE）分组矩阵乘法，通过简洁的实现和即时编译技术，实现了高性能和易用性。官方开源代码链接：https://github.com/deepseek-ai/DeepGEMM

2025-03-18 09:31:28 944

原创【DeepSeek开源周】Day 2：DeepEP 学习笔记

DeepEP 是由DeepSeek专为Mixture-of-Experts (MoE) 和专家并行 (Expert Parallelism, EP)设计的高效通信库。它提供了高吞吐量和低延迟的全对全（all-to-all）GPU内核，这些内核也被称为MoE分发（dispatch）和合并（combine）。该库还支持低精度操作，包括FP8。官方开源代码链接：https://github.com/deepseek-ai/DeepEP

2025-03-17 09:49:55 2199