云逸001～-CSDN博客

原创 SGlang 推理模型优化(PD架构分离)

本文介绍了关于 PD 架构分离和 KV 多级缓存策略。并且提供了 SGLang 的 PD 分离部署示例。用来说明这样推理模型部署架构

2025-05-24 14:34:56 1326

原创 SGLang 实战介绍 (张量并行 / Qwen3 30B MoE 架构部署)

本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例，阐述 SGLang 的不同场景的用法。单机，分布式和 MoE 架构的模型部署等

2025-05-08 15:34:20 1166

原创 Koordinator 快速入门 (一)

本篇主要介绍了离线混部相关技术综述，然后对比了Koordinator 和 Volcano 在离线混部场景下的不同。整点聚焦在Koordinator 的介绍和实战示例

2025-05-01 10:50:27 1030

原创 Karmada 多 Kubernetes集群管理实战

本篇主要介绍了karmada 的基本概念应用场景和特性。然后使用三个k8s 集群，实验三种多集群调度策略。

2025-04-29 08:45:00 1013

原创 Volcano 进阶实战 (三) - (多集群 / 离线混部)调度

本篇主要介绍了 volcano 在多 Kubernetes 集群中的任务调度能力和混部场景在的调度策略相关教程

2025-04-28 17:53:38 595

原创 Volcano 进阶实战 (二) - (网络拓扑/负载感知)调度

本篇详细介绍网络拓扑感知调度和负载感知重新调度策略。并利用 8 台节点的 Kubernetes 的环境模拟。网络拓扑结构调度。模拟高负载重新调度

2025-04-26 12:41:04 1238

原创 Volcano 实战快速入门 (一)

本文介绍了当前 Kubernetes 在大语言模型应用场景中的资源调度和管理面临的现状和挑战。简单介绍了 Volcano 的核心概念和组件功能。并提供了一些基础的任务示例

2025-04-24 23:54:16 1176

原创大模型(LLM)高性能网络综述(二) - 测试实验 NVMe-oF / NCCL / MPI

主要是补充了NVMe-oF,NCCL,MPI 三个组件的测试调试示例

2025-04-23 08:30:00 441 3

原创大模型(LLM)高性能网络综述(一)

针对对当前大模型训练和推理场景下，硬件网络，存储，内存，显卡的优化技术做了一个盘点综述。主要涉及(RDMA，InfiniBand，RoCE，NCCL，NVMe-oF )等

2025-04-23 00:03:29 768

原创 Kubeflow 快速入门实战(三) - Qwen2.5 微调全流程

本篇将采用Qwen2.5 3b微调全流程在 Kubeflow跑一遍。然后用实战的方式介绍 Kubeflow的各个模块是怎么衔接和协作的。

2025-04-21 18:32:48 1034

原创 Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer

承接前文博客 Kubeflow 快速入门实战(一)。补充Kubeflow pipelines ，katib，KServer，Training Operators (分布式训练)

2025-04-20 00:37:08 988

原创 Kubeflow 快速入门实战(一) - 简介 / Notebooks

本文主要介绍了 Kubeflow 的主要功能和能力，适用场景，基本用法。以及Notebook，piplines，katib，KServer 的入门级示例

2025-04-19 12:31:49 869

原创 Kubernetes GPU 资源调度与管理解析(Time-Slicing 和MIG)

主要介绍了 Kubernetes 对于 GPU 资源管理的策略和方法。并提供了共享 GPU 策略的示例。

2025-04-17 22:41:52 1325

原创大模型(LLM)基础Kubernetes环境构建

主要是介绍了 Kubernetes 云原生相关技术在，大模型研发流程里面应用。探讨云原生和大模型的关系。然后提供了一份单机版本的 Kubernetes 的搭建示例，调度 GPU 资源

2025-04-16 20:16:45 730

原创 DeepSpeed-Inference 分布式推理模型部署(基础)

采用DeepSpeed-Inference 张量并行方式分布式部署 qwen2.5 7b 模型。并且验证整个流程

2025-04-15 17:58:11 1122

原创 vLLM & Ray 分布式推理模型部署

通过 vllm 和 ray 结合，使用 4 台 A10 显卡部署 qwen2.5 14b 全参数推理模型。实现分布式推理模型部署的方法。解决单机单卡显存不够，模型推理效率低等问题。

2025-04-14 19:20:48 1291

原创 DeepSpeed-Train 分布式模型训练(小白入门)

DeepSpeed 是一个基于 PyTorch 构建的深度学习优化库。它提供了一系列先进的技术，使得用户能够训练参数量高达数万亿的模型，并显著提升训练和推理的速度与效率。DeepSpeed 的核心目标是让大规模模型训练变得更加普惠和高效。

2025-04-12 01:32:42 1194

原创 Triton + TensorRT 推理模型部署

Triton Inference Server与TensorRT_LLM 结合实战，提高推理模型服务的吞吐量和效率

2025-04-10 14:28:31 1223

原创 Qwen2.5 7B 极简微调训练

实现 qwen 2.5 7b 模型微调实验，并打包好模型最后发布到 huggingface

2025-04-10 13:29:12 375

原创 Kubernetes Operator开发 (小白入门包懂包会)

本文介绍了Operator是什么有什么作用应用场景有哪些，也介绍了利用Kubebuild开源项目实现Operator完整的开发过程。希望对大家开发Operator有帮助

2024-09-04 00:04:53 3208 1

原创 Kubernetes HPA 自定义指标弹性伸缩-设计思路

限于篇幅等后续补充自定义指标配置的细节说明，也可以参考github prometheus-adapter仓库里面的说明。(文章开头helm包里面已经配置好了)

2024-08-30 16:43:35 2047

原创大数据-查询引擎(trino)-云原生化设计思路

大数据场景里面，针对Trino/Presto的云原生化方案的设计思路。利用容器化技术，解决解决了查询引擎扩展性不足的问题。

2024-08-28 12:33:40 2500 2

欢迎来到云逸的博客频道