- 博客(344)
- 收藏
- 关注
原创 第二十一篇: `man`, `tldr`, `explain` - 授人以渔的“终极指令”
我们已经一起学习了19个(组)关键命令,从nvidia-smi到kubectl。但这只是GPU运维武器库中的一小部分。技术日新月异,新的工具、新的参数会不断涌现。这个系列的真正目的,不仅是教会你使用这19件“兵器”,更是希望你掌握学习任何一件新兵器的方法论。这套方法论就是你的“终极指令”。授人以鱼不如授人以渔。至此,《GPU运维指令集:20个关键命令的战地手册》系列已全部完结。我们从nvidia-smi出发,一路探索了监控、诊断、容器、集群、网络、性能等各个维度的命令,最后用自动化脚本将它们串联,又用。
2025-10-31 09:18:18
1090
原创 第二十篇: Shell脚本 - 将命令串联成“自动化巡检机器人”
本文介绍了一个自动化GPU节点健康巡检的Shell脚本,可一键执行多维度检查:1)验证NVIDIA驱动状态;2)监控各GPU核心指标(温度、ECC错误);3)扫描内核日志中的XID错误。脚本采用彩色输出和分级告警机制,支持扩展为定时任务或集成到告警系统。通过将零散命令串联成标准化流程,实现了运维经验的自动化沉淀,大幅提升了GPU集群的监控效率。该方案适用于日常巡检、故障排查和新节点验收等场景。
2025-10-31 09:07:51
611
原创 第十九篇: `nsys` & `ncu` - 性能剖析的“手术刀”
本文介绍了NVIDIA官方性能剖析工具nsys和ncu的使用方法。nsys提供系统级剖析,分析CPU与GPU协作效率,生成时间线报告;ncu则深入分析单个GPU内核的性能瓶颈。文章详细说明了安装验证、命令结构、实际应用案例(包括PyTorch训练脚本剖析和自定义矩阵乘法内核优化),并对比了两工具的不同应用场景。运维人员的主要职责是正确运行工具生成报告供算法工程师分析,同时需注意版本兼容性和报告打包交付等实战要点。
2025-10-30 10:25:06
620
原创 第十八篇: `ib_write_bw` - InfiniBand网络的“速度测试仪”
是我们验证IB网络性能的“黄金标准”,它用无可辩驳的数据告诉我们网络的真实吞吐能力。ibstat和ibping保证了网络的**“质”**(连通性)。保证了网络的**“量”**(双向带宽)。通过这“三板斧”,我们就具备了全面诊断IB网络的能力。至此,我们已经深入探索了监控、诊断、调度、网络等各个维度的命令。但当所有外部瓶颈都排除,性能问题直指GPU应用本身时,我们就需要更专业的“手术刀”来剖析其内部行为了。在下一篇中,我们将介绍NVIDIA官方的性能剖析工具——nsys和 ncu的命令行用法。
2025-10-28 09:51:57
819
原创 第十七篇: `ibstat` & `ibping` - InfiniBand网络的“心跳检测”
摘要:本文介绍了ibstat和ibping两个InfiniBand网络诊断工具的使用方法。ibstat用于检查本地IB网卡状态,重点关注State、Physical state和Rate三个关键指标;ibping则测试节点间RDMA通信质量,通过丢包率和延迟判断网络健康状况。文章还提供了针对LinkDown等常见问题的物理排错SOP,并强调在分布式训练前进行网络检查的重要性。这些工具是处理NCCL/MPI挂起、链路故障等问题的第一响应手段。
2025-10-28 09:42:45
1040
原创 第十六篇: `htop`, `iostat` & `dstat` - 节点的CPU与I/O瓶颈“侦察兵”
htopiostatdstat是我们诊断节点级性能问题的“侦察兵”,它们能帮助我们快速判定GPU应用变慢的根本原因是否在GPU之外。我们现在已经能熟练诊断节点内部的CPU和存储瓶颈。然而,对于大规模分布式训练,还有一个更关键、更隐蔽的瓶颈——节点之间的网络通信。在下一篇中,我们将学习InfiniBand网络的专用“侦察兵”—— ibstat和 ibping,来检测这条“数据高速公路”的健康状况。
2025-10-25 13:32:22
653
原创 第十五篇: `kubectl exec` - “潜入”容器内部进行“现场勘查”
摘要:kubectl exec命令允许在运行的Pod容器内执行命令或启动交互式Shell,是实时诊断的重要工具。文章详细介绍了其语法结构、关键参数和典型应用场景,如诊断"僵尸"进程、验证GPU状态、网络测试等,并通过一个GPU任务卡死的案例演示了具体排查流程。同时总结了常见exec失败原因及应对措施,强调其与kubectl logs的互补性:前者用于实时交互式诊断,后者用于事后日志分析。
2025-10-23 11:35:53
971
原创 第十四篇: `kubectl logs` - 追踪GPU应用在K8s中的“足迹”
摘要 本文详细介绍了kubectl logs命令在Kubernetes中诊断GPU应用问题的使用方法。作为排查Pod应用层错误的关键工具,文章重点讲解了--previous参数获取崩溃日志、-c参数查看多容器日志、配合grep过滤错误信息等实用技巧。通过一个GPU显存不足的典型案例,展示了如何从日志中定位torch.cuda.OutOfMemoryError等关键错误,并建议结合nvidia-smi和集中日志系统形成完整排障链。文章还强调了SRE视角下的最佳实践,包括命名空间隔离、日志分析闭环等运维要点,为
2025-10-23 11:12:58
918
原创 第十三篇: `kubectl taint` - 创建“专用”与“禁区”
摘要: kubectl taint命令用于为Kubernetes节点设置污点(Taints),实现节点排斥和资源隔离。污点由key=value:Effect组成,提供NoSchedule(阻止新Pod)、PreferNoSchedule(尽量避免)和NoExecute(驱逐现有Pod)三种排斥级别。与标签互补,污点解决"节点不想谁来"的问题,典型应用包括保护GPU资源、创建专用节点池和节点维护。通过为节点添加污点并在Pod中配置对应容忍度(Tolerations),可实现精细的资源隔离。
2025-10-22 10:22:20
948
原创 第十二篇: `kubectl label` - 为GPU节点“贴标签”
是我们进行资源分类和“画地为牢”的画笔。通过为节点打上标签,我们为精细化调度提供了依据。然而,正如开篇所说,和只是Pod对节点的“吸引”规则。它解决了“我想去哪里”的问题,但没有解决“我不想谁来”的问题。目前,虽然被alpha团队认领了,但其他团队的Pod(如果没有加)依然有可能被调度上来。如何创建一个排他性的、只允许特定团队进入的“VIP包房”呢?在下一篇中,我们将学习一个与label相辅相成的命令——kubectl taint。它将教会我们如何为节点设置“污点”,实现对Pod的“排斥”规则。
2025-10-22 09:57:09
564
原创 第十一篇: `kubectl get` & `describe` - 集群GPU资源的“人口普查”
和是我们作为集群管理员的“眼睛”。配合自定义输出: 你的“广角镜”,用于高效的全局扫描。: 你的“显微镜”,用于深入分析单个资源的分配详情。我们已经学会了如何“盘点”集群的GPU资源。但一个更主动的管理方式是,在我们部署任务之前,就指定它应该去哪一类节点。在下一篇中,我们将学习如何使用 kubectl label命令,为我们的GPU节点“贴上”自定义的标签,从而为实现精细化调度打下坚实的基础。
2025-10-20 10:05:06
1033
原创 第十篇: `docker exec` & `kubectl exec` - “潜入”容器内部进行“现场勘查”
和是我们打通“外部世界”和“容器内部世界”的关键工具。: 管理本机上的容器。: 管理K8s集群中的Pod,是SRE日常排错的核心命令。-it bash(或sh: 是我们进入容器进行自由探索的“黄金组合”。至此,我们已经全面掌握了单机和容器环境下的所有基础命令。现在,是时候将我们的目光正式投向更宏大的舞台——Kubernetes集群了。在下一篇中,我们将学习如何使用 kubectl get和 kubectl describe。
2025-10-20 09:47:35
878
原创 第九篇: `nvidia-ctk` - NVIDIA Container Toolkit 的配置魔术棒
nvidia-ctk:注册 GPU 运行时并生成配置文件;info:展示当前 GPU 驱动、库与设备状态;list:验证容器启动时注入的文件路径。掌握它,意味着你能真正看懂 GPU 从主机到容器的整个数据链路。在下一篇中,我们将学习如何使用 docker exec与 kubectl exec“潜入”容器内部,直接验证 GPU 是否可用,并进行实时调试。
2025-10-19 11:46:16
1443
原创 第八篇: `lsmod`, `modinfo`, `modprobe` - 深入内核模块
摘要: 本文介绍了Linux系统中管理NVIDIA驱动内核模块的关键命令:lsmod(查看已加载模块)、modinfo(查看模块详细信息)和modprobe/rmmod(加载/卸载模块)。通过lsmod | grep nvidia可快速验证驱动是否加载成功,modinfo则能检查驱动版本、依赖关系和内核兼容性(重点比对vermagic与uname -r)。文章还提供了模块卸载重载的故障排查方法,并总结了常见错误解决方案。这些命令是诊断驱动加载失败、版本冲突等底层问题的核心工具。
2025-10-17 10:22:47
888
原创 第七篇: `apt` & `dnf` — 精准管理 NVIDIA 驱动版本
✅aptdnf是企业环境中最稳定的驱动管理方式✅ DKMS 机制可保证内核升级后驱动自动重建✅ 统一仓库管理有利于批量节点版本一致性。
2025-10-17 10:05:51
1519
原创 第六篇: `dmesg` & `lspci` - 硬件层面的“黑匣子”与“雷达”
摘要 dmesg和lspci是Linux系统诊断GPU问题的底层工具。lspci如"雷达"扫描PCI总线,确认GPU物理存在性,区分硬件与驱动故障;dmesg则是内核"黑匣子",记录驱动加载错误和Xid等关键事件。当nvidia-smi失灵时,这两个命令能诊断GPU消失、驱动加载失败等疑难问题。通过实际案例展示了如何解读Xid错误代码,以及如何根据结果进行硬件检查或驱动问题排查。这些工具是SRE诊断底层GPU问题的必备技能。
2025-10-15 10:59:11
862
原创 第五篇: `dcgmi` - 官方的企业级“体检报告”
dcgmi是SRE进行大规模GPU集群管理和自动化的基石。通过掌握其diaggrouppolicystats等核心模块,你就能将GPU运维从被动的“救火”模式,转变为主动的“健康管理”模式。我们已经学会了如何主动“体检”GPU,但有时故障发生在一瞬间,我们来不及运行诊断。这时,我们就需要像调查飞机“黑匣子”一样,去查看系统在故障发生时留下的日志。在下一篇中,我们将学习如何使用 dmesg和 lspci,从系统最底层的日志和硬件信息中,寻找故障的蛛丝-马迹。
2025-10-15 10:37:48
1151
原创 第四篇: `nvtop` & `gpustat` - 更友好的实时监控仪表盘
nvtop和gpustat是两款比原生nvidia-smi更友好的GPU监控工具。nvtop提供类似htop的交互式彩色界面,支持进程排序、筛选和终止操作,适合长时间监控;gpustat则以简洁美观的单行输出见长,能快速显示GPU核心状态和占用最多的进程,适合快速查看。两者均可通过包管理器或pip安装,配合使用可以满足日常监控需求:gpustat用于快速概览,nvtop用于深入交互分析。
2025-10-13 11:13:19
926
原创 第三篇:`nvidia-smi` 不只是监控,更是主动控制!
摘要: nvidia-smi不仅是GPU监控工具,更是运维工程师的主动控制利器。通过设置功率限制(如A100限制至350W避免超载),可优化集群稳定性与能耗;持久模式(-pm 1)能消除首次调用延迟,保障推理服务SLO;显存清理功能可定位并终结僵尸进程,释放资源。结合systemd实现开机自启,提升自动化运维能力。从SRE视角看,这些功能赋予GPU集群可预测性、自愈能力,是AI基础设施稳定的关键。
2025-10-13 11:00:30
1122
原创 第二篇: `nvidia-smi` (下) - 自动化监控与脚本
本文介绍了nvidia-smi命令的高级用法,重点讲解如何实现GPU状态的自动化监控与脚本开发。主要内容包括:1)使用-l参数进行动态监控,实时观察GPU负载变化;2)利用--query-gpu参数实现精准数据查询,为自动化脚本提供稳定数据源;3)通过实战案例演示如何编写GPU显存告警脚本。文章还预告了后续将介绍nvtop和gpustat等更直观的交互式监控工具。这些技巧能帮助运维人员摆脱手动监控,构建高效可靠的GPU自动化监控系统。
2025-09-27 07:17:50
1050
原创 第一篇: `nvidia-smi` (上) - 你的第一双“火眼金睛”
nvidia-smi默认面板 = GPU 运维的第一道防线GPU 是否健康是否空闲谁在占用资源👉 但这只是瞬时快照。的动态监控--query的自定义查询如何用脚本自动化巡检和告警。
2025-09-26 09:50:21
1037
原创 GPU运维工程师入门指南 (最终篇/附录): 你的远航“藏宝图”
从最基础的驱动安装,到平台架构与未来展望,本系列已走完一个完整闭环。希望这份“藏宝图”能成为你常备的参考,帮助你在AI 基础设施的星辰大海中持续前行。祝你一帆风顺,前程似锦!🚀。
2025-09-26 09:42:17
948
原创 GPU运维工程师入门指南 (第十三篇): 平台的成本管理与安全加固
摘要: 本文探讨了GPU平台运营中的成本管理与安全加固两大核心问题。在成本管理方面,提出以GPU小时数为计量单位,利用Prometheus监控系统实现精确计量,并通过可视化账单推动资源优化策略。在安全方面,介绍了Kubernetes原生隔离机制、沙箱容器运行时、镜像安全扫描等关键技术,强调多租户环境下的硬件和数据隔离。文章为构建稳定、高效、安全的GPU平台提供了系统化的运维思路,并预告了AI PaaS平台的未来蓝图规划。
2025-09-24 10:15:29
1023
原创 GPU运维工程师入门指南 (第十二篇): 性能调优与瓶颈分析
性能调优是一个系统化的工程,而非凭感觉的玄学。核心要点回顾功耗是比GPU利用率更可靠的负载指标。性能分析的首要目标是让瓶颈发生在GPU上。使用dstat和htop等工具可以快速诊断I/O和CPU问题。用于发现系统级的性能“空隙”,而则用于深入分析GPU Kernel的内部效率。我们现在已经掌握了从硬件维修到性能优化的全栈技能。在下一篇中,我们将进入平台运营的“大管家”角色,探讨成本管理与安全加固,学习如何计量资源使用,以及如何在多租户环境中保障平台的安全。
2025-09-24 10:04:15
1606
原创 GPU运维工程师入门指南 (第十一篇): GPU故障诊断“战地笔记”
GPU故障排查是一项综合技能,考验着运维人员对硬件、内核、驱动的综合理解。核心要点回顾建立“界定->检查->日志->复现->关联”的系统化诊断思维。dmesg是排查底层硬件和驱动问题的最重要信息来源。Xid错误是通用求救信号,需结合温度、供电排查;ECC错误是显存健康的直接判据。使用dcgmi diag可以对GPU进行主动的健康检查,而则是用于深度分析和寻求支持的终极工具。我们已经学会了如何处理硬件和驱动层面的“硬故障”。但更多时候,用户的问题并非“程序崩溃”,而是“程序跑得太慢”。
2025-09-22 11:49:44
1142
原创 GPU运维工程师入门指南 (第十篇): 为AI负载设计高性能存储方案
摘要:本文探讨AI平台中的存储系统设计,剖析AI工作负载独特的I/O模式(海量小文件随机读取、大文件顺序写入等),对比分析四种主流存储方案(本地NVMe SSD、NFS、对象存储和并行文件系统)的优缺点。针对实际生产环境,建议采用分层存储架构(冷数据+热数据层)结合本地缓存策略。文章强调存储作为AI基础设施的第三大支柱,其性能直接影响GPU集群的整体效率,并预告后续将讨论GPU故障诊断问题。
2025-09-22 10:16:38
686
原创 GPU运维工程师入门指南 (第九篇): 高性能网络 - InfiniBand与RDMA技术
本文介绍了支撑AI分布式训练的高性能网络技术InfiniBand和RDMA。传统TCP/IP网络因内核开销和内存拷贝成为性能瓶颈,而InfiniBand提供高带宽、低延迟的专用网络,RDMA则通过内核旁路和零拷贝技术实现节点间内存直接访问,显著提升通信效率。特别介绍了GPUDirect RDMA技术,使GPU显存可直接通信。文章还列举了运维人员在部署这些技术时需要考虑的硬件、驱动、配置和监控等关键点。这些技术共同构成了支撑大规模AI集群的"数据高速公路",为后续讨论存储性能瓶颈奠定了基础
2025-09-20 18:11:44
734
原创 GPU运维工程师入门指南 (第八篇): 软件级共享 - 时间分片与其他方案
本文介绍了GPU软件级共享技术——时间分片(Time-Slicing)的原理与应用。通过剖析时间分片的机制,对比了其与硬件隔离方案MIG的区别:时间分片允许多个容器共享同一GPU的计算和显存资源,但缺乏隔离性。文章详细讲解了在Kubernetes中配置时间分片的步骤,并通过实验验证了其逻辑切分效果。最后简要介绍了cGPU等其他软件共享方案,并指出时间分片适用于轻量级任务,但不适合对性能隔离要求高的场景。该技术为不支持MIG的GPU提供了提升资源利用率的有效方案。
2025-09-19 11:15:51
833
原创 GPU运维工程师入门指南 (第七篇): 硬件级切分 - 多实例GPU (MIG) 技术深度剖析
本文深入剖析了NVIDIA MIG技术,这是一种硬件级GPU切分方案,可将物理GPU划分为多个独立实例,实现资源隔离和高效利用。文章对比了硬件级与软件级共享技术的差异,详细介绍了MIG的适用场景和固定切分规则,并提供了在Kubernetes中通过GPU Operator启用MIG的实战指南。MIG特别适合多租户推理、开发共享等场景,能提供严格的性能、故障和安全隔离。最后预告了下一篇将探讨软件层面的GPU共享技术,为不支持MIG的硬件提供替代方案。
2025-09-19 10:43:25
1373
原创 GPU运维工程师入门指南 (第六篇): Kubernetes中GPU资源的精细化调度
本文介绍了在Kubernetes中实现GPU资源精细化调度的关键技术。主要内容包括:1)通过节点标签(Node Labels)标记GPU节点属性;2)使用NodeSelector和NodeAffinity实现Pod对GPU节点的精确匹配和灵活调度;3)利用污点(Taints)和容忍度(Tolerations)机制防止非GPU任务占用专用节点资源。文章提供了详细的YAML配置示例和命令行操作,展示了如何组合这些技术实现GPU资源的异构调度、资源隔离和优先级控制。这些方法为构建高效的多租户GPU云平台奠定了基础
2025-09-17 11:48:07
772
原创 GPU运维工程师入门指南 (第五篇): 初入Kubernetes - 使用NVIDIA GPU Operator
本文介绍了如何通过NVIDIA GPU Operator在Kubernetes集群中实现GPU资源管理。文章首先解释了原生Kubernetes不支持GPU识别的原因,以及Device Plugin框架的作用。重点介绍了GPU Operator的一站式自动化能力,包括自动安装驱动、容器工具包等组件。实战部分详细演示了通过Helm安装GPU Operator、验证GPU资源,并运行首个GPU Pod的完整流程。文章最后预告了后续将探讨的GPU资源精细化管理主题,包括型号区分、资源隔离和共享技术等。
2025-09-17 11:36:03
1064
原创 GPU运维工程师入门指南 (第四篇): 使用NVIDIA Container Toolkit赋能容器
本文介绍了GPU容器化在AI开发中的重要性及NVIDIA Container Toolkit的使用方法。主要内容包括:1) GPU容器化解决了AI项目复杂的依赖关系和环境一致性问题;2) NVIDIA Container Toolkit作为容器运行时与主机驱动的桥梁,通过动态注入方式实现容器内GPU访问;3) 详细步骤指导如何安装配置该工具包;4) 实战演示了运行基础GPU容器和构建PyTorch应用的过程。文章为后续学习Kubernetes和NVIDIA GPU Operator进行集群化管理奠定了基础。
2025-09-15 14:45:38
1351
原创 GPU运维工程师入门指南 (第三篇): `nvidia-smi`命令深度解析
在上一篇文章中,我们成功安装了NVIDIA驱动,并使用nvidia-smi命令初步验证了安装结果。从本篇开始,我们将深入这把GPU运维的“瑞士军刀”,把它从一个简单的验证工具,升级为我们日常监控、管理和诊断的核心利器。nvidia-smi(NVIDIA System Management Interface)是一个功能强大的命令行工具,旨在帮助管理员监控和管理NVIDIA GPU设备。本文将带你逐一拆解它的各项输出,并掌握其最实用的高级功能。nvidia-smi。
2025-09-15 14:34:46
966
原创 GPU运维工程师入门指南 (第二篇): NVIDIA驱动安装与问题排查
正确的驱动安装是GPU运维的“万里长征第一步”。我们推荐优先使用发行版软件源的方式,因为它最省心、最稳定。遇到问题时,和内核版本不匹配是最需要优先排查的两个方向。现在,你的GPU服务器已经准备就绪。在下一篇中,我们将深入探索我们刚刚使用的强大工具——nvidia-smi。我们将逐一解析它的所有输出参数,并学习如何利用它来监控GPU状态和进行基础管理。
2025-09-13 16:47:38
1232
原创 GPU运维工程师入门指南 (第一篇): 核心职责与基础架构
简单来说,GPU运维工程师是保障GPU算力稳定、高效、可被规模化使用的技术专家。他们是算法科学家和底层硬件之间的关键桥梁。通过本文,我们明确了GPU运维工程师的核心价值,并理解了GPU区别于CPU的核心工作模式及其内部的关键组件。GPU运维是连接AI应用与底层硬件的关键角色,对复杂度和成本的管理要求极高。GPU通过大规模并行计算(人海战术)获得超高性能,与CPU的复杂串行处理(专家模式)形成互补。显存(VRAM)是任务运行的硬性门槛,而SM、CUDA核心、Tensor核心共同决定了GPU的计算性能。
2025-09-12 11:52:19
729
原创 第六篇:生态与未来 - Velero 与开源社区及未来展望
摘要: 本文探讨了Velero在Kubernetes生态中的发展与应用。作为开源备份工具,Velero通过Red Hat的OADP项目实现企业级集成,并借助CSI快照标准提升兼容性。与商业方案相比,Velero更具灵活性和可扩展性,适合自动化运维场景。通过系列学习,读者可掌握云原生数据保护的核心思想,为SRE工作奠定基础。(150字)
2025-09-12 11:25:41
955
原创 第五篇:生产环境运维 - Velero 的监控、告警与最佳实践
摘要: 本文聚焦Velero在生产环境中的监控、告警与运维实践。通过集成Prometheus采集核心指标(如备份失败次数、持续时间),并配置Alertmanager实现实时告警,确保备份异常及时响应。提出五大最佳实践:定期恢复演练、备份Velero自身配置、标签精细化备份、权限最小化及存储成本优化(TTL/生命周期策略)。强调将备份系统视为关键应用运维,是SRE成熟度的体现,为云原生环境提供可靠的数据保护方案。
2025-09-10 07:06:08
784
原创 第 16 篇:服务网格的未来 - Ambient Mesh, eBPF 与 Gateway API
文章摘要:Istio服务网格的未来演进 本文探讨了Istio服务网格的发展方向,重点分析了当前Sidecar模式的局限性,包括资源开销大、运维复杂和流量效率低等问题。介绍了Istio的革新方案——Ambient Mesh架构,通过分层设计将L4功能下沉到节点级ztunnel组件,L7功能由按需部署的Waypoint Proxy处理,显著降低了资源消耗和运维复杂度。同时展望了eBPF技术对数据平面的重塑潜力,以及Gateway API对流量管理的标准化作用。文章提供了Sidecar与Ambient模式的详细对
2025-09-10 06:59:41
775
原创 第四篇:SRE 终极演练 - 使用 Velero 实现集群迁移与灾难恢复
更重要的是,我们学会了如何将 Velero 作为核心组件,融入到 SRE 的。为了确保下一次恢复在一个干净的环境中进行,我们先删除刚才失败的恢复任务和因此创建的命名空间。当真正的灾难来临时,你需要做的就是切换到灾备集群,(如果需要)将 BSL 切换为。命名空间下,创建一个特殊的 ConfigMap,定义替换规则。,学习如何监控它、为它配置告警,以及其他重要的生产环境最佳实践。,结果找不到,导致 PV 无法被创建,Pod 也就无法启动。,然后按照演练过的流程,进行后续的应用验证和流量切换。
2025-09-08 11:49:58
512
原创 第 15 篇:Day 2 运维 - Istio 升级与问题排查
本文介绍了Istio控制平面的金丝雀升级流程和故障排查工具istioctl的使用方法。主要内容包括:1)通过定义版本变量,分步安装新版本istiod并保留旧版本,实现零停机升级;2)先升级Ingress Gateway验证新版本,再逐步迁移应用命名空间;3)使用istioctl analyze检查配置错误,proxy-status查看同步状态,proxy-config透视Envoy内部配置;4)强调SRE思维,通过可控的渐进式迁移降低风险,确保系统稳定性。该流程可实现平滑升级,同时提供强大工具快速定位问题。
2025-09-08 11:19:13
913
提升问答效率的Deepseek优化提问指南与技巧
2025-04-01
2025最热AI大模型DeepSeek-R1网页端与API操作指南及资源推荐
2025-03-03
Deepseek 2025年高效应用秘籍:职场、学业和创作中的智能助手
2025-03-12
深度解读DeepSeek最强使用攻略:简明提问与三大对话模板
2025-03-10
DeepSeek小白使用技巧指南:让你轻松驾驭深度思考R1与人性化交互
2025-03-10
DeepSeek高阶提示词全面解析:助力职场、创作、电商等领域小白秒变专家
2025-03-10
清华大学DeepSeek助力普通人的高效工作、学习与生活应用指南
2025-02-25
DeepSeek赋能职场应用的技术实现及其多场景应用探讨 - 清华大学新媒沈阳团队
2025-02-25
解决Git克隆时遇到的HTTPS证书验证失败的问题
2025-02-12
Linux下使用grep搜索日志文件遇到Binary file警告的解决方法
2025-02-12
Kubernetes网络解决方案详解:Flannel的架构、配置与应用场景
2025-02-12
Kubernetes容器编排技术:kubectl debug命令详解与容器及节点故障排查
2025-02-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅