自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 SGlang 推理模型优化(PD架构分离)

本文介绍了关于 PD 架构分离和 KV 多级缓存策略。并且提供了 SGLang 的 PD 分离部署示例。用来说明这样推理模型部署架构

2025-05-24 14:34:56 1326

原创 SGLang 实战介绍 (张量并行 / Qwen3 30B MoE 架构部署)

本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例,阐述 SGLang 的不同场景的用法。单机,分布式和 MoE 架构的模型部署等

2025-05-08 15:34:20 1166

原创 Koordinator 快速入门 (一)

本篇主要介绍了离线混部相关技术综述,然后对比了Koordinator 和 Volcano 在离线混部场景下的不同。整点聚焦在Koordinator 的介绍和实战示例

2025-05-01 10:50:27 1030

原创 Karmada 多 Kubernetes集群管理实战

本篇主要介绍了karmada 的基本概念 应用场景和特性。然后使用三个k8s 集群,实验三种多集群调度策略。

2025-04-29 08:45:00 1013

原创 Volcano 进阶实战 (三) - (多集群 / 离线混部)调度

本篇主要介绍了 volcano 在多 Kubernetes 集群中的任务调度能力和混部场景在的调度策略相关教程

2025-04-28 17:53:38 595

原创 Volcano 进阶实战 (二) - (网络拓扑/负载感知)调度

本篇详细介绍网络拓扑感知调度和负载感知重新调度策略。并利用 8 台节点的 Kubernetes 的环境模拟。网络拓扑结构调度。模拟高负载重新调度

2025-04-26 12:41:04 1238

原创 Volcano 实战快速入门 (一)

本文介绍了当前 Kubernetes 在大语言模型应用场景中的资源调度和管理面临的现状和挑战。简单介绍了 Volcano 的核心概念和组件功能。并提供了一些基础的任务示例

2025-04-24 23:54:16 1176

原创 大模型(LLM)高性能网络综述(二) - 测试实验 NVMe-oF / NCCL / MPI

主要是补充了NVMe-oF,NCCL,MPI 三个组件的测试调试示例

2025-04-23 08:30:00 441 3

原创 大模型(LLM)高性能网络综述(一)

针对对当前大模型训练和推理场景下,硬件网络,存储,内存,显卡的优化技术做了一个盘点综述。主要涉及(RDMA,InfiniBand,RoCE,NCCL,NVMe-oF )等

2025-04-23 00:03:29 768

原创 Kubeflow 快速入门实战(三) - Qwen2.5 微调全流程

本篇将采用Qwen2.5 3b微调全流程在 Kubeflow跑一遍。然后用实战的方式介绍 Kubeflow的各个模块是怎么衔接和协作的。

2025-04-21 18:32:48 1034

原创 Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer

承接前文博客 Kubeflow 快速入门实战(一)。补充Kubeflow pipelines ,katib,KServer,Training Operators (分布式训练)

2025-04-20 00:37:08 988

原创 Kubeflow 快速入门实战(一) - 简介 / Notebooks

本文主要介绍了 Kubeflow 的主要功能和能力,适用场景,基本用法。以及Notebook,piplines,katib,KServer 的入门级示例

2025-04-19 12:31:49 869

原创 Kubernetes GPU 资源调度与管理解析(Time-Slicing 和MIG)

主要介绍了 Kubernetes 对于 GPU 资源管理的策略和方法。并提供了共享 GPU 策略的示例。

2025-04-17 22:41:52 1325

原创 大模型(LLM)基础Kubernetes环境 构建

主要是介绍了 Kubernetes 云原生相关技术在,大模型研发流程里面应用。探讨云原生和大模型的关系。然后提供了一份单机版本的 Kubernetes 的搭建示例,调度 GPU 资源

2025-04-16 20:16:45 730

原创 DeepSpeed-Inference 分布式推理模型部署(基础)

采用DeepSpeed-Inference 张量并行方式 分布式部署 qwen2.5 7b 模型。并且验证整个流程

2025-04-15 17:58:11 1122

原创 vLLM & Ray 分布式推理模型部署

通过 vllm 和 ray 结合,使用 4 台 A10 显卡 部署 qwen2.5 14b 全参数推理模型。实现分布式推理模型部署的方法。解决单机单卡显存不够,模型推理效率低等问题。

2025-04-14 19:20:48 1291

原创 DeepSpeed-Train 分布式模型训练(小白入门)

DeepSpeed 是一个基于 PyTorch 构建的深度学习优化库。它提供了一系列先进的技术,使得用户能够训练参数量高达数万亿的模型,并显著提升训练和推理的速度与效率。DeepSpeed 的核心目标是让大规模模型训练变得更加普惠和高效。

2025-04-12 01:32:42 1194

原创 Triton + TensorRT 推理模型部署

Triton Inference Server与TensorRT_LLM 结合实战,提高推理模型服务的吞吐量和效率

2025-04-10 14:28:31 1223

原创 Qwen2.5 7B 极简微调训练

实现 qwen 2.5 7b 模型微调实验,并打包好模型最后发布到 huggingface

2025-04-10 13:29:12 375

原创 Kubernetes Operator开发 (小白入门 包懂 包会)

本文介绍了Operator是什么 有什么作用 应用场景有哪些,也介绍了利用Kubebuild开源项目实现Operator完整的开发过程。希望对大家开发Operator有帮助

2024-09-04 00:04:53 3208 1

原创 Kubernetes HPA 自定义指标弹性伸缩-设计思路

限于篇幅 等后续补充自定义指标配置的细节说明,也可以参考github prometheus-adapter仓库里面的说明。(文章开头helm包 里面已经配置好了)

2024-08-30 16:43:35 2047

原创 大数据-查询引擎(trino)-云原生化设计思路

大数据场景里面,针对Trino/Presto的云原生化方案的设计思路。利用容器化技术,解决解决了查询引擎扩展性不足的问题。

2024-08-28 12:33:40 2500 2

DeepSpeed 分布式模型训练

DeepSpeed 分布式模型训练

2025-04-12

Kubernetes HPA弹性伸缩 helm包

Kubernetes HPA弹性伸缩 helm包

2024-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除