- 博客(22)
- 收藏
- 关注
原创 SGlang 推理模型优化(PD架构分离)
本文介绍了关于 PD 架构分离和 KV 多级缓存策略。并且提供了 SGLang 的 PD 分离部署示例。用来说明这样推理模型部署架构
2025-05-24 14:34:56
1326
原创 SGLang 实战介绍 (张量并行 / Qwen3 30B MoE 架构部署)
本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例,阐述 SGLang 的不同场景的用法。单机,分布式和 MoE 架构的模型部署等
2025-05-08 15:34:20
1166
原创 Koordinator 快速入门 (一)
本篇主要介绍了离线混部相关技术综述,然后对比了Koordinator 和 Volcano 在离线混部场景下的不同。整点聚焦在Koordinator 的介绍和实战示例
2025-05-01 10:50:27
1030
原创 Karmada 多 Kubernetes集群管理实战
本篇主要介绍了karmada 的基本概念 应用场景和特性。然后使用三个k8s 集群,实验三种多集群调度策略。
2025-04-29 08:45:00
1013
原创 Volcano 进阶实战 (三) - (多集群 / 离线混部)调度
本篇主要介绍了 volcano 在多 Kubernetes 集群中的任务调度能力和混部场景在的调度策略相关教程
2025-04-28 17:53:38
595
原创 Volcano 进阶实战 (二) - (网络拓扑/负载感知)调度
本篇详细介绍网络拓扑感知调度和负载感知重新调度策略。并利用 8 台节点的 Kubernetes 的环境模拟。网络拓扑结构调度。模拟高负载重新调度
2025-04-26 12:41:04
1238
原创 Volcano 实战快速入门 (一)
本文介绍了当前 Kubernetes 在大语言模型应用场景中的资源调度和管理面临的现状和挑战。简单介绍了 Volcano 的核心概念和组件功能。并提供了一些基础的任务示例
2025-04-24 23:54:16
1176
原创 大模型(LLM)高性能网络综述(二) - 测试实验 NVMe-oF / NCCL / MPI
主要是补充了NVMe-oF,NCCL,MPI 三个组件的测试调试示例
2025-04-23 08:30:00
441
3
原创 大模型(LLM)高性能网络综述(一)
针对对当前大模型训练和推理场景下,硬件网络,存储,内存,显卡的优化技术做了一个盘点综述。主要涉及(RDMA,InfiniBand,RoCE,NCCL,NVMe-oF )等
2025-04-23 00:03:29
768
原创 Kubeflow 快速入门实战(三) - Qwen2.5 微调全流程
本篇将采用Qwen2.5 3b微调全流程在 Kubeflow跑一遍。然后用实战的方式介绍 Kubeflow的各个模块是怎么衔接和协作的。
2025-04-21 18:32:48
1034
原创 Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer
承接前文博客 Kubeflow 快速入门实战(一)。补充Kubeflow pipelines ,katib,KServer,Training Operators (分布式训练)
2025-04-20 00:37:08
988
原创 Kubeflow 快速入门实战(一) - 简介 / Notebooks
本文主要介绍了 Kubeflow 的主要功能和能力,适用场景,基本用法。以及Notebook,piplines,katib,KServer 的入门级示例
2025-04-19 12:31:49
869
原创 Kubernetes GPU 资源调度与管理解析(Time-Slicing 和MIG)
主要介绍了 Kubernetes 对于 GPU 资源管理的策略和方法。并提供了共享 GPU 策略的示例。
2025-04-17 22:41:52
1325
原创 大模型(LLM)基础Kubernetes环境 构建
主要是介绍了 Kubernetes 云原生相关技术在,大模型研发流程里面应用。探讨云原生和大模型的关系。然后提供了一份单机版本的 Kubernetes 的搭建示例,调度 GPU 资源
2025-04-16 20:16:45
730
原创 DeepSpeed-Inference 分布式推理模型部署(基础)
采用DeepSpeed-Inference 张量并行方式 分布式部署 qwen2.5 7b 模型。并且验证整个流程
2025-04-15 17:58:11
1122
原创 vLLM & Ray 分布式推理模型部署
通过 vllm 和 ray 结合,使用 4 台 A10 显卡 部署 qwen2.5 14b 全参数推理模型。实现分布式推理模型部署的方法。解决单机单卡显存不够,模型推理效率低等问题。
2025-04-14 19:20:48
1291
原创 DeepSpeed-Train 分布式模型训练(小白入门)
DeepSpeed 是一个基于 PyTorch 构建的深度学习优化库。它提供了一系列先进的技术,使得用户能够训练参数量高达数万亿的模型,并显著提升训练和推理的速度与效率。DeepSpeed 的核心目标是让大规模模型训练变得更加普惠和高效。
2025-04-12 01:32:42
1194
原创 Triton + TensorRT 推理模型部署
Triton Inference Server与TensorRT_LLM 结合实战,提高推理模型服务的吞吐量和效率
2025-04-10 14:28:31
1223
原创 Kubernetes Operator开发 (小白入门 包懂 包会)
本文介绍了Operator是什么 有什么作用 应用场景有哪些,也介绍了利用Kubebuild开源项目实现Operator完整的开发过程。希望对大家开发Operator有帮助
2024-09-04 00:04:53
3208
1
原创 Kubernetes HPA 自定义指标弹性伸缩-设计思路
限于篇幅 等后续补充自定义指标配置的细节说明,也可以参考github prometheus-adapter仓库里面的说明。(文章开头helm包 里面已经配置好了)
2024-08-30 16:43:35
2047
原创 大数据-查询引擎(trino)-云原生化设计思路
大数据场景里面,针对Trino/Presto的云原生化方案的设计思路。利用容器化技术,解决解决了查询引擎扩展性不足的问题。
2024-08-28 12:33:40
2500
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人