自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(344)
  • 收藏
  • 关注

原创 第二十一篇: `man`, `tldr`, `explain` - 授人以渔的“终极指令”

我们已经一起学习了19个(组)关键命令,从nvidia-smi到kubectl。但这只是GPU运维武器库中的一小部分。技术日新月异,新的工具、新的参数会不断涌现。这个系列的真正目的,不仅是教会你使用这19件“兵器”,更是希望你掌握学习任何一件新兵器的方法论。这套方法论就是你的“终极指令”。授人以鱼不如授人以渔。至此,《GPU运维指令集:20个关键命令的战地手册》系列已全部完结。我们从nvidia-smi出发,一路探索了监控、诊断、容器、集群、网络、性能等各个维度的命令,最后用自动化脚本将它们串联,又用。

2025-10-31 09:18:18 1090

原创 第二十篇: Shell脚本 - 将命令串联成“自动化巡检机器人”

本文介绍了一个自动化GPU节点健康巡检的Shell脚本,可一键执行多维度检查:1)验证NVIDIA驱动状态;2)监控各GPU核心指标(温度、ECC错误);3)扫描内核日志中的XID错误。脚本采用彩色输出和分级告警机制,支持扩展为定时任务或集成到告警系统。通过将零散命令串联成标准化流程,实现了运维经验的自动化沉淀,大幅提升了GPU集群的监控效率。该方案适用于日常巡检、故障排查和新节点验收等场景。

2025-10-31 09:07:51 611

原创 第十九篇: `nsys` & `ncu` - 性能剖析的“手术刀”

本文介绍了NVIDIA官方性能剖析工具nsys和ncu的使用方法。nsys提供系统级剖析,分析CPU与GPU协作效率,生成时间线报告;ncu则深入分析单个GPU内核的性能瓶颈。文章详细说明了安装验证、命令结构、实际应用案例(包括PyTorch训练脚本剖析和自定义矩阵乘法内核优化),并对比了两工具的不同应用场景。运维人员的主要职责是正确运行工具生成报告供算法工程师分析,同时需注意版本兼容性和报告打包交付等实战要点。

2025-10-30 10:25:06 620

原创 第十八篇: `ib_write_bw` - InfiniBand网络的“速度测试仪”

是我们验证IB网络性能的“黄金标准”,它用无可辩驳的数据告诉我们网络的真实吞吐能力。ibstat和ibping保证了网络的**“质”**(连通性)。保证了网络的**“量”**(双向带宽)。通过这“三板斧”,我们就具备了全面诊断IB网络的能力。至此,我们已经深入探索了监控、诊断、调度、网络等各个维度的命令。但当所有外部瓶颈都排除,性能问题直指GPU应用本身时,我们就需要更专业的“手术刀”来剖析其内部行为了。在下一篇中,我们将介绍NVIDIA官方的性能剖析工具——nsys和 ncu的命令行用法。

2025-10-28 09:51:57 819

原创 第十七篇: `ibstat` & `ibping` - InfiniBand网络的“心跳检测”

摘要:本文介绍了ibstat和ibping两个InfiniBand网络诊断工具的使用方法。ibstat用于检查本地IB网卡状态,重点关注State、Physical state和Rate三个关键指标;ibping则测试节点间RDMA通信质量,通过丢包率和延迟判断网络健康状况。文章还提供了针对LinkDown等常见问题的物理排错SOP,并强调在分布式训练前进行网络检查的重要性。这些工具是处理NCCL/MPI挂起、链路故障等问题的第一响应手段。

2025-10-28 09:42:45 1040

原创 第十六篇: `htop`, `iostat` & `dstat` - 节点的CPU与I/O瓶颈“侦察兵”

htopiostatdstat是我们诊断节点级性能问题的“侦察兵”,它们能帮助我们快速判定GPU应用变慢的根本原因是否在GPU之外。我们现在已经能熟练诊断节点内部的CPU和存储瓶颈。然而,对于大规模分布式训练,还有一个更关键、更隐蔽的瓶颈——节点之间的网络通信。在下一篇中,我们将学习InfiniBand网络的专用“侦察兵”—— ibstat和 ibping,来检测这条“数据高速公路”的健康状况。

2025-10-25 13:32:22 653

原创 第十五篇: `kubectl exec` - “潜入”容器内部进行“现场勘查”

摘要:kubectl exec命令允许在运行的Pod容器内执行命令或启动交互式Shell,是实时诊断的重要工具。文章详细介绍了其语法结构、关键参数和典型应用场景,如诊断"僵尸"进程、验证GPU状态、网络测试等,并通过一个GPU任务卡死的案例演示了具体排查流程。同时总结了常见exec失败原因及应对措施,强调其与kubectl logs的互补性:前者用于实时交互式诊断,后者用于事后日志分析。

2025-10-23 11:35:53 971

原创 第十四篇: `kubectl logs` - 追踪GPU应用在K8s中的“足迹”

摘要 本文详细介绍了kubectl logs命令在Kubernetes中诊断GPU应用问题的使用方法。作为排查Pod应用层错误的关键工具,文章重点讲解了--previous参数获取崩溃日志、-c参数查看多容器日志、配合grep过滤错误信息等实用技巧。通过一个GPU显存不足的典型案例,展示了如何从日志中定位torch.cuda.OutOfMemoryError等关键错误,并建议结合nvidia-smi和集中日志系统形成完整排障链。文章还强调了SRE视角下的最佳实践,包括命名空间隔离、日志分析闭环等运维要点,为

2025-10-23 11:12:58 918

原创 第十三篇: `kubectl taint` - 创建“专用”与“禁区”

摘要: kubectl taint命令用于为Kubernetes节点设置污点(Taints),实现节点排斥和资源隔离。污点由key=value:Effect组成,提供NoSchedule(阻止新Pod)、PreferNoSchedule(尽量避免)和NoExecute(驱逐现有Pod)三种排斥级别。与标签互补,污点解决"节点不想谁来"的问题,典型应用包括保护GPU资源、创建专用节点池和节点维护。通过为节点添加污点并在Pod中配置对应容忍度(Tolerations),可实现精细的资源隔离。

2025-10-22 10:22:20 948

原创 第十二篇: `kubectl label` - 为GPU节点“贴标签”

是我们进行资源分类和“画地为牢”的画笔。通过为节点打上标签,我们为精细化调度提供了依据。然而,正如开篇所说,和只是Pod对节点的“吸引”规则。它解决了“我想去哪里”的问题,但没有解决“我不想谁来”的问题。目前,虽然被alpha团队认领了,但其他团队的Pod(如果没有加)依然有可能被调度上来。如何创建一个排他性的、只允许特定团队进入的“VIP包房”呢?在下一篇中,我们将学习一个与label相辅相成的命令——kubectl taint。它将教会我们如何为节点设置“污点”,实现对Pod的“排斥”规则。

2025-10-22 09:57:09 564

原创 第十一篇: `kubectl get` & `describe` - 集群GPU资源的“人口普查”

和是我们作为集群管理员的“眼睛”。配合自定义输出: 你的“广角镜”,用于高效的全局扫描。: 你的“显微镜”,用于深入分析单个资源的分配详情。我们已经学会了如何“盘点”集群的GPU资源。但一个更主动的管理方式是,在我们部署任务之前,就指定它应该去哪一类节点。在下一篇中,我们将学习如何使用 kubectl label命令,为我们的GPU节点“贴上”自定义的标签,从而为实现精细化调度打下坚实的基础。

2025-10-20 10:05:06 1033

原创 第十篇: `docker exec` & `kubectl exec` - “潜入”容器内部进行“现场勘查”

和是我们打通“外部世界”和“容器内部世界”的关键工具。: 管理本机上的容器。: 管理K8s集群中的Pod,是SRE日常排错的核心命令。-it bash(或sh: 是我们进入容器进行自由探索的“黄金组合”。至此,我们已经全面掌握了单机和容器环境下的所有基础命令。现在,是时候将我们的目光正式投向更宏大的舞台——Kubernetes集群了。在下一篇中,我们将学习如何使用 kubectl get和 kubectl describe。

2025-10-20 09:47:35 878

原创 第九篇: `nvidia-ctk` - NVIDIA Container Toolkit 的配置魔术棒

nvidia-ctk:注册 GPU 运行时并生成配置文件;info:展示当前 GPU 驱动、库与设备状态;list:验证容器启动时注入的文件路径。掌握它,意味着你能真正看懂 GPU 从主机到容器的整个数据链路。在下一篇中,我们将学习如何使用 docker exec与 kubectl exec“潜入”容器内部,直接验证 GPU 是否可用,并进行实时调试。

2025-10-19 11:46:16 1443

原创 第八篇: `lsmod`, `modinfo`, `modprobe` - 深入内核模块

摘要: 本文介绍了Linux系统中管理NVIDIA驱动内核模块的关键命令:lsmod(查看已加载模块)、modinfo(查看模块详细信息)和modprobe/rmmod(加载/卸载模块)。通过lsmod | grep nvidia可快速验证驱动是否加载成功,modinfo则能检查驱动版本、依赖关系和内核兼容性(重点比对vermagic与uname -r)。文章还提供了模块卸载重载的故障排查方法,并总结了常见错误解决方案。这些命令是诊断驱动加载失败、版本冲突等底层问题的核心工具。

2025-10-17 10:22:47 888

原创 第七篇: `apt` & `dnf` — 精准管理 NVIDIA 驱动版本

✅aptdnf是企业环境中最稳定的驱动管理方式✅ DKMS 机制可保证内核升级后驱动自动重建✅ 统一仓库管理有利于批量节点版本一致性。

2025-10-17 10:05:51 1519

原创 第六篇: `dmesg` & `lspci` - 硬件层面的“黑匣子”与“雷达”

摘要 dmesg和lspci是Linux系统诊断GPU问题的底层工具。lspci如"雷达"扫描PCI总线,确认GPU物理存在性,区分硬件与驱动故障;dmesg则是内核"黑匣子",记录驱动加载错误和Xid等关键事件。当nvidia-smi失灵时,这两个命令能诊断GPU消失、驱动加载失败等疑难问题。通过实际案例展示了如何解读Xid错误代码,以及如何根据结果进行硬件检查或驱动问题排查。这些工具是SRE诊断底层GPU问题的必备技能。

2025-10-15 10:59:11 862

原创 第五篇: `dcgmi` - 官方的企业级“体检报告”

dcgmi是SRE进行大规模GPU集群管理和自动化的基石。通过掌握其diaggrouppolicystats等核心模块,你就能将GPU运维从被动的“救火”模式,转变为主动的“健康管理”模式。我们已经学会了如何主动“体检”GPU,但有时故障发生在一瞬间,我们来不及运行诊断。这时,我们就需要像调查飞机“黑匣子”一样,去查看系统在故障发生时留下的日志。在下一篇中,我们将学习如何使用 dmesg和 lspci,从系统最底层的日志和硬件信息中,寻找故障的蛛丝-马迹。

2025-10-15 10:37:48 1151

原创 第四篇: `nvtop` & `gpustat` - 更友好的实时监控仪表盘

nvtop和gpustat是两款比原生nvidia-smi更友好的GPU监控工具。nvtop提供类似htop的交互式彩色界面,支持进程排序、筛选和终止操作,适合长时间监控;gpustat则以简洁美观的单行输出见长,能快速显示GPU核心状态和占用最多的进程,适合快速查看。两者均可通过包管理器或pip安装,配合使用可以满足日常监控需求:gpustat用于快速概览,nvtop用于深入交互分析。

2025-10-13 11:13:19 926

原创 第三篇:`nvidia-smi` 不只是监控,更是主动控制!

摘要: nvidia-smi不仅是GPU监控工具,更是运维工程师的主动控制利器。通过设置功率限制(如A100限制至350W避免超载),可优化集群稳定性与能耗;持久模式(-pm 1)能消除首次调用延迟,保障推理服务SLO;显存清理功能可定位并终结僵尸进程,释放资源。结合systemd实现开机自启,提升自动化运维能力。从SRE视角看,这些功能赋予GPU集群可预测性、自愈能力,是AI基础设施稳定的关键。

2025-10-13 11:00:30 1122

原创 第二篇: `nvidia-smi` (下) - 自动化监控与脚本

本文介绍了nvidia-smi命令的高级用法,重点讲解如何实现GPU状态的自动化监控与脚本开发。主要内容包括:1)使用-l参数进行动态监控,实时观察GPU负载变化;2)利用--query-gpu参数实现精准数据查询,为自动化脚本提供稳定数据源;3)通过实战案例演示如何编写GPU显存告警脚本。文章还预告了后续将介绍nvtop和gpustat等更直观的交互式监控工具。这些技巧能帮助运维人员摆脱手动监控,构建高效可靠的GPU自动化监控系统。

2025-09-27 07:17:50 1050

原创 第一篇: `nvidia-smi` (上) - 你的第一双“火眼金睛”

nvidia-smi默认面板 = GPU 运维的第一道防线GPU 是否健康是否空闲谁在占用资源👉 但这只是瞬时快照。的动态监控--query的自定义查询如何用脚本自动化巡检和告警。

2025-09-26 09:50:21 1037

原创 GPU运维工程师入门指南 (最终篇/附录): 你的远航“藏宝图”

从最基础的驱动安装,到平台架构与未来展望,本系列已走完一个完整闭环。希望这份“藏宝图”能成为你常备的参考,帮助你在AI 基础设施的星辰大海中持续前行。祝你一帆风顺,前程似锦!🚀。

2025-09-26 09:42:17 948

原创 GPU运维工程师入门指南 (第十三篇): 平台的成本管理与安全加固

摘要: 本文探讨了GPU平台运营中的成本管理与安全加固两大核心问题。在成本管理方面,提出以GPU小时数为计量单位,利用Prometheus监控系统实现精确计量,并通过可视化账单推动资源优化策略。在安全方面,介绍了Kubernetes原生隔离机制、沙箱容器运行时、镜像安全扫描等关键技术,强调多租户环境下的硬件和数据隔离。文章为构建稳定、高效、安全的GPU平台提供了系统化的运维思路,并预告了AI PaaS平台的未来蓝图规划。

2025-09-24 10:15:29 1023

原创 GPU运维工程师入门指南 (第十二篇): 性能调优与瓶颈分析

性能调优是一个系统化的工程,而非凭感觉的玄学。核心要点回顾功耗是比GPU利用率更可靠的负载指标。性能分析的首要目标是让瓶颈发生在GPU上。使用dstat和htop等工具可以快速诊断I/O和CPU问题。用于发现系统级的性能“空隙”,而则用于深入分析GPU Kernel的内部效率。我们现在已经掌握了从硬件维修到性能优化的全栈技能。在下一篇中,我们将进入平台运营的“大管家”角色,探讨成本管理与安全加固,学习如何计量资源使用,以及如何在多租户环境中保障平台的安全。

2025-09-24 10:04:15 1606

原创 GPU运维工程师入门指南 (第十一篇): GPU故障诊断“战地笔记”

GPU故障排查是一项综合技能,考验着运维人员对硬件、内核、驱动的综合理解。核心要点回顾建立“界定->检查->日志->复现->关联”的系统化诊断思维。dmesg是排查底层硬件和驱动问题的最重要信息来源。Xid错误是通用求救信号,需结合温度、供电排查;ECC错误是显存健康的直接判据。使用dcgmi diag可以对GPU进行主动的健康检查,而则是用于深度分析和寻求支持的终极工具。我们已经学会了如何处理硬件和驱动层面的“硬故障”。但更多时候,用户的问题并非“程序崩溃”,而是“程序跑得太慢”。

2025-09-22 11:49:44 1142

原创 GPU运维工程师入门指南 (第十篇): 为AI负载设计高性能存储方案

摘要:本文探讨AI平台中的存储系统设计,剖析AI工作负载独特的I/O模式(海量小文件随机读取、大文件顺序写入等),对比分析四种主流存储方案(本地NVMe SSD、NFS、对象存储和并行文件系统)的优缺点。针对实际生产环境,建议采用分层存储架构(冷数据+热数据层)结合本地缓存策略。文章强调存储作为AI基础设施的第三大支柱,其性能直接影响GPU集群的整体效率,并预告后续将讨论GPU故障诊断问题。

2025-09-22 10:16:38 686

原创 GPU运维工程师入门指南 (第九篇): 高性能网络 - InfiniBand与RDMA技术

本文介绍了支撑AI分布式训练的高性能网络技术InfiniBand和RDMA。传统TCP/IP网络因内核开销和内存拷贝成为性能瓶颈,而InfiniBand提供高带宽、低延迟的专用网络,RDMA则通过内核旁路和零拷贝技术实现节点间内存直接访问,显著提升通信效率。特别介绍了GPUDirect RDMA技术,使GPU显存可直接通信。文章还列举了运维人员在部署这些技术时需要考虑的硬件、驱动、配置和监控等关键点。这些技术共同构成了支撑大规模AI集群的"数据高速公路",为后续讨论存储性能瓶颈奠定了基础

2025-09-20 18:11:44 734

原创 GPU运维工程师入门指南 (第八篇): 软件级共享 - 时间分片与其他方案

本文介绍了GPU软件级共享技术——时间分片(Time-Slicing)的原理与应用。通过剖析时间分片的机制,对比了其与硬件隔离方案MIG的区别:时间分片允许多个容器共享同一GPU的计算和显存资源,但缺乏隔离性。文章详细讲解了在Kubernetes中配置时间分片的步骤,并通过实验验证了其逻辑切分效果。最后简要介绍了cGPU等其他软件共享方案,并指出时间分片适用于轻量级任务,但不适合对性能隔离要求高的场景。该技术为不支持MIG的GPU提供了提升资源利用率的有效方案。

2025-09-19 11:15:51 833

原创 GPU运维工程师入门指南 (第七篇): 硬件级切分 - 多实例GPU (MIG) 技术深度剖析

本文深入剖析了NVIDIA MIG技术,这是一种硬件级GPU切分方案,可将物理GPU划分为多个独立实例,实现资源隔离和高效利用。文章对比了硬件级与软件级共享技术的差异,详细介绍了MIG的适用场景和固定切分规则,并提供了在Kubernetes中通过GPU Operator启用MIG的实战指南。MIG特别适合多租户推理、开发共享等场景,能提供严格的性能、故障和安全隔离。最后预告了下一篇将探讨软件层面的GPU共享技术,为不支持MIG的硬件提供替代方案。

2025-09-19 10:43:25 1373

原创 GPU运维工程师入门指南 (第六篇): Kubernetes中GPU资源的精细化调度

本文介绍了在Kubernetes中实现GPU资源精细化调度的关键技术。主要内容包括:1)通过节点标签(Node Labels)标记GPU节点属性;2)使用NodeSelector和NodeAffinity实现Pod对GPU节点的精确匹配和灵活调度;3)利用污点(Taints)和容忍度(Tolerations)机制防止非GPU任务占用专用节点资源。文章提供了详细的YAML配置示例和命令行操作,展示了如何组合这些技术实现GPU资源的异构调度、资源隔离和优先级控制。这些方法为构建高效的多租户GPU云平台奠定了基础

2025-09-17 11:48:07 772

原创 GPU运维工程师入门指南 (第五篇): 初入Kubernetes - 使用NVIDIA GPU Operator

本文介绍了如何通过NVIDIA GPU Operator在Kubernetes集群中实现GPU资源管理。文章首先解释了原生Kubernetes不支持GPU识别的原因,以及Device Plugin框架的作用。重点介绍了GPU Operator的一站式自动化能力,包括自动安装驱动、容器工具包等组件。实战部分详细演示了通过Helm安装GPU Operator、验证GPU资源,并运行首个GPU Pod的完整流程。文章最后预告了后续将探讨的GPU资源精细化管理主题,包括型号区分、资源隔离和共享技术等。

2025-09-17 11:36:03 1064

原创 GPU运维工程师入门指南 (第四篇): 使用NVIDIA Container Toolkit赋能容器

本文介绍了GPU容器化在AI开发中的重要性及NVIDIA Container Toolkit的使用方法。主要内容包括:1) GPU容器化解决了AI项目复杂的依赖关系和环境一致性问题;2) NVIDIA Container Toolkit作为容器运行时与主机驱动的桥梁,通过动态注入方式实现容器内GPU访问;3) 详细步骤指导如何安装配置该工具包;4) 实战演示了运行基础GPU容器和构建PyTorch应用的过程。文章为后续学习Kubernetes和NVIDIA GPU Operator进行集群化管理奠定了基础。

2025-09-15 14:45:38 1351

原创 GPU运维工程师入门指南 (第三篇): `nvidia-smi`命令深度解析

在上一篇文章中,我们成功安装了NVIDIA驱动,并使用nvidia-smi命令初步验证了安装结果。从本篇开始,我们将深入这把GPU运维的“瑞士军刀”,把它从一个简单的验证工具,升级为我们日常监控、管理和诊断的核心利器。nvidia-smi(NVIDIA System Management Interface)是一个功能强大的命令行工具,旨在帮助管理员监控和管理NVIDIA GPU设备。本文将带你逐一拆解它的各项输出,并掌握其最实用的高级功能。nvidia-smi。

2025-09-15 14:34:46 966

原创 GPU运维工程师入门指南 (第二篇): NVIDIA驱动安装与问题排查

正确的驱动安装是GPU运维的“万里长征第一步”。我们推荐优先使用发行版软件源的方式,因为它最省心、最稳定。遇到问题时,和内核版本不匹配是最需要优先排查的两个方向。现在,你的GPU服务器已经准备就绪。在下一篇中,我们将深入探索我们刚刚使用的强大工具——nvidia-smi。我们将逐一解析它的所有输出参数,并学习如何利用它来监控GPU状态和进行基础管理。

2025-09-13 16:47:38 1232

原创 GPU运维工程师入门指南 (第一篇): 核心职责与基础架构

简单来说,GPU运维工程师是保障GPU算力稳定、高效、可被规模化使用的技术专家。他们是算法科学家和底层硬件之间的关键桥梁。通过本文,我们明确了GPU运维工程师的核心价值,并理解了GPU区别于CPU的核心工作模式及其内部的关键组件。GPU运维是连接AI应用与底层硬件的关键角色,对复杂度和成本的管理要求极高。GPU通过大规模并行计算(人海战术)获得超高性能,与CPU的复杂串行处理(专家模式)形成互补。显存(VRAM)是任务运行的硬性门槛,而SM、CUDA核心、Tensor核心共同决定了GPU的计算性能。

2025-09-12 11:52:19 729

原创 第六篇:生态与未来 - Velero 与开源社区及未来展望

摘要: 本文探讨了Velero在Kubernetes生态中的发展与应用。作为开源备份工具,Velero通过Red Hat的OADP项目实现企业级集成,并借助CSI快照标准提升兼容性。与商业方案相比,Velero更具灵活性和可扩展性,适合自动化运维场景。通过系列学习,读者可掌握云原生数据保护的核心思想,为SRE工作奠定基础。(150字)

2025-09-12 11:25:41 955

原创 第五篇:生产环境运维 - Velero 的监控、告警与最佳实践

摘要: 本文聚焦Velero在生产环境中的监控、告警与运维实践。通过集成Prometheus采集核心指标(如备份失败次数、持续时间),并配置Alertmanager实现实时告警,确保备份异常及时响应。提出五大最佳实践:定期恢复演练、备份Velero自身配置、标签精细化备份、权限最小化及存储成本优化(TTL/生命周期策略)。强调将备份系统视为关键应用运维,是SRE成熟度的体现,为云原生环境提供可靠的数据保护方案。

2025-09-10 07:06:08 784

原创 第 16 篇:服务网格的未来 - Ambient Mesh, eBPF 与 Gateway API

文章摘要:Istio服务网格的未来演进 本文探讨了Istio服务网格的发展方向,重点分析了当前Sidecar模式的局限性,包括资源开销大、运维复杂和流量效率低等问题。介绍了Istio的革新方案——Ambient Mesh架构,通过分层设计将L4功能下沉到节点级ztunnel组件,L7功能由按需部署的Waypoint Proxy处理,显著降低了资源消耗和运维复杂度。同时展望了eBPF技术对数据平面的重塑潜力,以及Gateway API对流量管理的标准化作用。文章提供了Sidecar与Ambient模式的详细对

2025-09-10 06:59:41 775

原创 第四篇:SRE 终极演练 - 使用 Velero 实现集群迁移与灾难恢复

更重要的是,我们学会了如何将 Velero 作为核心组件,融入到 SRE 的。为了确保下一次恢复在一个干净的环境中进行,我们先删除刚才失败的恢复任务和因此创建的命名空间。当真正的灾难来临时,你需要做的就是切换到灾备集群,(如果需要)将 BSL 切换为。命名空间下,创建一个特殊的 ConfigMap,定义替换规则。,学习如何监控它、为它配置告警,以及其他重要的生产环境最佳实践。,结果找不到,导致 PV 无法被创建,Pod 也就无法启动。,然后按照演练过的流程,进行后续的应用验证和流量切换。

2025-09-08 11:49:58 512

原创 第 15 篇:Day 2 运维 - Istio 升级与问题排查

本文介绍了Istio控制平面的金丝雀升级流程和故障排查工具istioctl的使用方法。主要内容包括:1)通过定义版本变量,分步安装新版本istiod并保留旧版本,实现零停机升级;2)先升级Ingress Gateway验证新版本,再逐步迁移应用命名空间;3)使用istioctl analyze检查配置错误,proxy-status查看同步状态,proxy-config透视Envoy内部配置;4)强调SRE思维,通过可控的渐进式迁移降低风险,确保系统稳定性。该流程可实现平滑升级,同时提供强大工具快速定位问题。

2025-09-08 11:19:13 913

提升问答效率的Deepseek优化提问指南与技巧

内容概要:本文档详细介绍了如何通过优化提问来获得更准确和有用的回答。主要内容分为五个方面:明确问题类型并提供具体细节、将复杂问题分解为多步骤提问、提供充分的背景信息、指定所需的回答形式以及在遇到不理想的回答时及时补充信息。此外,还强调了避免模糊表述、同时提出多个问题和缺少关键信息的问题。文档不仅提供了正面的例子,还展示了不恰当的提问方式及其改进方法。 适用人群:希望提高沟通效率、获取高质量答案的人群,特别是经常使用Deepseek或其他类似平台进行咨询的用户。 使用场景及目标:帮助用户构建有效的提问习惯,从而更快捷地解决问题,提高信息检索的质量和速度。无论是学术研究、技术难题还是日常生活中的疑惑,都能从中受益。 其他说明:文档结尾提及了一个名为“DeepSeek智库”的社区,鼓励有兴趣深入了解Deepseek的用户加入,享受更多资源和服务。

2025-04-01

2025最热AI大模型DeepSeek-R1网页端与API操作指南及资源推荐

内容概要:本文档主要介绍DeepSeek-R1的大规模预训练模型在实际应用中的部署方式,着重讲述网页端的操作流程和使用方法,还详细解释了如何通过API接口进行开发以及调用的具体步骤。为用户提供从入门到实践的学习路线图和相关资源链接,确保使用者能快速掌握DeepSeek的基本概念并开始尝试各种功能操作,包括加入专为DeepSeek设立的知识共享社区‘DeepSeek智库’以获取更多进阶教程和技术支持。 适用人群:对AI技术和大型语言模型感兴趣的个人、希望利用DeepSeek-R1提升工作效率的专业人士或是正在寻找新技术解决方案的企业团队。 使用场景及目标:用户可以利用本指南作为初步参考资料,在工作中运用DeepSeek-R1提供的强大工具解决复杂的任务,如自动化文本生成功能来减轻文案撰写负担,提高内容创作效率。此外,对于开发者而言,这份指南还将帮助他们理解和集成DeepSeek的API服务,构建基于AI的应用程序。 其他说明:文中提到有关于DeepSeek的知识星球会员活动——加入即可享受定期推送的行业资讯更新,参与交流互动的机会,并且能够获得一定的费用折扣。这无疑将为广大AI爱好者提供

2025-03-03

DeepSeek30个喂饭指令.pdf

DeepSeek30个喂饭指令.pdf

2025-03-10

Deepseek 2025年高效应用秘籍:职场、学业和创作中的智能助手

内容概要:本文介绍了 Deepseek 大型 AI 模型的高效使用方法,聚焦于一个关键点——提问技巧的提升。文中提供了“4步提问法”,帮助用户从明确身份、设定具体任务、加入细节约束到最后确认输出格式四个方面精准优化与 Deepseek 的交互,从而大幅提升效率并获得满意的结果。具体案例展示了在不同场景下,如职场汇报、学术论文优化以及博客写作中的正确提问方式,以及如何改进以往无效的提问来得到更精确有用的回答。 适用人群:对深度学习有兴趣,希望掌握更高效使用工具技巧的学生党、职场人士和其他用户群体。 使用场景及目标:该指南适用于各种日常工作生活情景,在需要快速获取大量信息并且追求高质量输出的情况下尤为有用;同时也非常适合那些希望通过更好的沟通技巧来提升工作效率的人士。 其他说明:本文鼓励读者积极参与到实践中去检验自己的提问水平,并提供加入专门交流社区的机会以进一步探讨相关话题和获取更多实践经验。此外,限时优惠活动使用户能够更低廉的价格体验完整的 Deepseek 功能集。

2025-03-12

深度解读DeepSeek最强使用攻略:简明提问与三大对话模板

内容概要:本文详细介绍了近期热门的AI工具DeepSeek的正确使用方法,特别是其与其他AI产品的显著区别——即简单、直白地提问能够获得更好的推理效果,而非复杂的引导提示。文章推荐了三种特别有效的沟通模式:首先是以‘目标—对象—效果—问题’为基础的场景设定模板,有助于精确传达需求背景;其次是面向小白用户的术语解释法,强调采用平易近人的语言诠释专业知识点;最后是创意十足的风格迁移模式,通过特定作者的作品风格重铸指定主题的文字内容。 适合人群:所有对于AI对话应用感兴趣的新手用户以及希望改进现有交流手段获取更多有效资讯的技术发烧友们。 使用场景及目标:①提高普通民众与AI之间的互动效率;②帮助非专业背景的人士快速理解高科技术语;③鼓励创新思维,在各种文学创作或文案撰写中借助大师笔风激发灵感。 其他说明:考虑到DeepSeek作为一个强大而先进的语言模型可能会遇到的问题,文中还提供了常见的故障排查方案和支持社区链接供进一步咨询与探讨。此外,针对DeepSeek爱好者特设的知识星球项目也在推广阶段,提供了一个交流平台用于共享资源和技术心得。

2025-03-10

DeepSeek小白使用技巧指南:让你轻松驾驭深度思考R1与人性化交互

内容概要:本文主要介绍了 DeepSeek 这一 AI 工具的小白使用技巧。从基础操作到高级玩法进行了全面梳理。特别强调了使用 ‘按下 R1’ 来触发深度思考,从而获得与其他模型不同的结论。文章详细讲解了如询问更精确的问题、指定专家角色提高回答质量、设定要求获取更可靠的答复、使用‘隐藏功能’进行数据处理、语言翻译以及搜索特定网站的方法、并提出了如何简化答案和解决编码错误的建议。另外文中也提供了一些关于充分利用 AI 提供更具体化、定制化内容的小窍门,使用户能更好地理解和运用该工具。 适合人群:初次接触 DeepSeek 或对这一工具有一定兴趣的技术新手或是开发者。 使用场景及目标:帮助用户更加高效准确地利用 DeepSeek 实现各种任务,包括但不限于编写程序、数据分析、自然语言处理等领域的工作流改进,以及获取相关信息资源。 其他说明:文章还提供了 DeepSeek 使用社区——'DeepSeek智库'的相关信息,用户可以通过加入来进一步深入交流学习。此外,对于有兴趣深入了解和应用DeepSeek的人来说可以考虑加入付费社群。

2025-03-10

DeepSeek高阶提示词全面解析:助力职场、创作、电商等领域小白秒变专家

内容概要:本文介绍了由深AI夜校团队整理的50个超实用的DeepSeek高阶提示词,旨在帮助初学者快速上手DeepSeek这一强大的AI工具。文章分为多个部分,涵盖了职场打工人必备篇(如高效的会议纪要整理、自动化周报生成等)、自媒体爆款创作篇(如吸引人的标题生成、短视频脚本制作)、电商搞钱实战篇(如亚马逊爆款文案写作)、学生党逆袭篇(如文献综述速成、试卷押题),程序员开挂篇(如代码注释、BUG解决)、副业赚钱秘籍篇(如小红书起号攻略)以及个人成长开挂篇(如知识体系建设、日程管理系统)。通过对各个具体应用场景的实际问题的提示和解答,让读者可以迅速地在各自领域的实践中应用,并达到提升效率、创新思维、解决问题的目的。 适用人群:适用于对AI工具有一定兴趣但在实际运用中有一定障碍的初级用户,特别是职场新人、新媒体创作者、电商平台从业者、在校大学生、程序员及其他希望利用DeepSeek进行各类文本创作、流程优化的群体。 使用场景及目标:帮助各行业的专业人士利用DeepSeek更好地完成日常工作和生活中的各项任务。例如,在职场中提高会议记录的质量和速度;在自媒体平台发布有吸引力的内容;在电商平台上

2025-03-10

清华大学DeepSeek助力普通人的高效工作、学习与生活应用指南

内容概要:本文详细介绍了DeepSeek这款强大的AI助手如何帮助普通人解决日常工作、学习和生活中遇到的各种问题。首先解释了DeepSeek的核心功能和服务,接着探讨了如何有效地使用提示语来优化DeepSeek的产出,并展示了几个具体的应用场景:包括紧急项目撰写的快速生成,新员工熟悉公司和行业的高效入门途径,日常客户服务中问题的快捷处理,职业发展和个人成长过程中的人脉维护策略,以及突发状况下的快速反应和协调。同时,文中提到通过DeepSeek,普通人可以充分利用提示词驱动的新生产力,在AI时代增强竞争力。此外,还涉及了智能体在长时间对话中的知识生成与边界问题,帮助人们理解如何突破智能体的知识循环边界并进行创新。 适合人群:普通大众,特别是在工作、学习或生活中希望通过技术手段提高效率和生活质量的人群,如职场人士、学生、新员工、家长和管理人员。 使用场景及目标:本文适用于希望快速掌握复杂工作任务的方法、快速熟悉陌生领域的人员、以及寻求解决个人挑战与困惑(如家庭紧急事件、人际交往)的群体。主要目标是让用户学会如何有效利用AI助手DeepSeek解决问题,同时提高自身在信息处理和决策方面的能力。 其他说明:对于想要深入了解人工智能技术及其应用的人来说,《清华大学DeepSeek第3弹》是一份宝贵的参考资料,不仅可以学习AI工具的实际操作,还能从中了解到提示语设计的重要性及其影响AI生成内容的方式。通过掌握正确的提问方式和技术,使用者不仅能解决当前面临的具体问题,还将获得一种可持续发展的技能,为未来更广泛的智能化应用场景做好准备。

2025-02-25

DeepSeek赋能职场应用的技术实现及其多场景应用探讨 - 清华大学新媒沈阳团队

内容概要:本文来自清华大学新媒沈阳团队的最新研究成果,旨在探讨大型预训练模型 DeepSeek 如何应用于职场的各种情境中,包括提示语技巧及实际应用场景。文档介绍了 DeepSeek 的三大版本及不同部署方式的特点,重点阐述了基础模型V3与推理模型R1的操作区别和应用场合。同时,展示了 DeepSeek 在各类AI竞赛以及实际工作中的优异表现,例如在图表生成、PPT创作、海报设计等方面的应用,充分体现了该技术的人机协同能力和广泛适应性。此外,还提供了如何高效使用 DeepSeek 进行情报收集、内容创作等一系列具体指导。 适合人群:本文适用于有一定编程和技术背景的知识工作者和职场人士,尤其适合从事数据处理、市场分析、媒体内容生产和AI应用开发的专业人士。 使用场景及目标:本文旨在指导职场专业人士如何利用AI技术提升工作效率和创新能力,如通过自动化报表生成减少手动操作的时间成本,通过智能化内容生产提高营销宣传的质量和影响力等。通过对不同应用场景的实际案例剖析,帮助使用者快速理解和实施。 其他说明:文档由清华大学和中央民族大学的顶尖科研团队撰写,集成了众多前沿研究成果和技术实践经验,为AI在各行各业的应用提供了宝贵的参考资料和发展蓝图。

2025-02-25

深入解析AWK内置变量:提升文件处理与数据清洗效率的技术指南

深入解析AWK内置变量:提升文件处理与数据清洗效率的技术指南

2025-02-12

解决Git克隆时遇到的HTTPS证书验证失败的问题

内容概要:本篇文章详细介绍了在利用Git进行仓库克隆过程中出现HTTPS证书验证失败这一普遍存在问题,并给出了详细的解决方案。针对不同的操作系统提供了两种解决方式:一种是为Linux与Windows分别设置系统级环境变量,使其跳过证书认证环节;另一种则是统一采用Git内置配置命令来禁止全局HTTP请求下的SSL安全检查机制。这样可以有效规避因网络或服务器端导致的信任凭证不匹配所引起的clone中断问题。 适用人群:面向对Git有一定基础使用的开发者和操作维护人员。 使用场景及目标:本文主要解决在实际工作中由于网络条件限制或特殊网络环境中(如公司内部网),尝试通过https协议访问公共源码库(GitHub等)执行clone指令却频繁遭遇证书校验失败的情况。 其他说明:值得注意的是,在关闭SSL验证之后,虽然可以快速解决问题并提高工作效率,但也意味着失去了来自HTTPS协议的安全保障,请各位在非官方渠道获取资源的时候谨慎考虑这种方法的影响。同时鼓励用户尽量查明造成证书认证失败的具体原因,从根本上寻找解决方案以恢复SSL保护。

2025-02-12

Linux下使用grep搜索日志文件遇到Binary file警告的解决方法

内容概要:本文介绍了在Linux环境下使用grep命令检索日志文件过程中可能会碰到的 'Binary file ... matches' 提醒的问题及其成因分析与解决方案。该问题是由于日志文件中含有特殊非打印字符,像是ASCII值位于128到255之间的扩展ASCII字符或者像null (0x00),start of heading(0x01)以及substitute(0x1A)这类不可见控制字符,这会导致某些编辑器显示乱码。为了应对这种情况提供了两种主要的解决方案:一种是在运行grep命令时候添加 -a 参数强制将所有输入视为纯文本;另一种则是先用 cat -A 显示所有不可见字符再进行grep匹配。 适合人群:熟悉Linux基本操作指令并且经常需要对服务器上的日志或其他数据记录进行查找和筛选工作的技术人员。 使用场景及目标:适用于需要快速有效地解析并定位特定日志条目的IT工作者,尤其是在面对包含不规范内容或意外二进制块的数据时的目标。 阅读建议:对于初学者来说,在掌握基础shell命令之后,可以进一步研究此篇文章所提出的处理技巧来提高效率。而对于更有经验的技术人员,则可以通过对比不同解决思路优化自己的日常工作流程。

2025-02-12

Kubernetes网络解决方案详解:Flannel的架构、配置与应用场景

内容概要:本文详细介绍了Flannel这一经典的Kubernetes网络插件。主要内容涵盖了Flannel的基本概念、工作原理、不同后端模式的特点与选择依据,及其具体配置方法。特别强调了Flannel作为Kubernetes网络方案的优势在于其简单、易用性和对各种环境下Pod通信的支持能力。 适合人群:对于想要深入了解Kubernetes网络机制、尤其是关注Pod间通信方案的技术爱好者,运维工程师,或有意向构建和管理自己的Kubernetes集群的专业人士而言极具价值。 使用场景及目标:通过本篇文章的学习,可以帮助读者理解如何利用Flannel建立稳定可靠的内部网络通信,在实际操作过程中正确选择合适的后端模式完成配置,并优化Kubernetes集群内的网络性能。 其他说明:Flannel适用于小型集群及对性能无特殊要求的情况;而在大型集群或者更高要求的安全性和隔离性的场合,则需考虑如Calico等更为复杂的选项。

2025-02-12

清华大学总结的deepseek使用指南

deepseek

2025-02-12

Kubernetes容器编排技术:kubectl debug命令详解与容器及节点故障排查

内容概要:本文详细介绍了 Kubernetes (简称 K8s) 中的 kubectl debug 命令,这是用于在运行中的 Pod 中添加临时容器以进行故障排查的强大工具。文章首先概述了 kubectl debug 的主要用途和优势,即通过添加临时容器并共享目标容器的各类命名空间,使得开发者能高效地进行内部环境的操作与检查。文中通过实例演示了如何为一个已有 Pod 添加临时容器进行调试、列举了一些典型的调试指令及其应用场景、解释了如何利用此命令针对单个节点创建专门的调试 Pod 来解决集群级别的问题。最后强调,在完成调试任务之后应该及时移除这些额外加入的组件以保证生产环境的稳定性。 适用人群:熟悉 Kubernetes 或有意向深入研究 K8s 集群管理与运维的技术人员,特别是遇到 Pod 或容器故障难以定位的情况时希望借助 kubectl debug 快速诊断的人群。 使用场景及目标:当遇到容器或 Pod 故障时,可以通过 kubectl debug 命令迅速在现有 Pod 中插入临时容器用作调试工具;或是针对节点层级的问题创建特定的调试 Pod,以便更全面地了解和修复可能存在的配置错误或性能瓶颈等问题。 其他说明:虽然 kubectl debug 是一个便捷的故障排查手段,但在实际应用过程中也要注意不要长时间占用计算资源以及避免对线上业务造成不必要的干扰。因此,应当谨慎使用并在解决问题后尽快释放相关资源。

2025-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除