43、使用Helm Charts和Operator进行Kubernetes应用管理与监控

最新推荐文章于 2025-10-01 16:03:57 发布

vim8coder

最新推荐文章于 2025-10-01 16:03:57 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏： Kubernetes实战指南文章标签： Helm Charts Operator OperatorHub

本文链接：https://blog.csdn.net/vim8coder/article/details/152394794

Kubernetes实战指南专栏收录该内容

61 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用Helm Charts和Operator进行Kubernetes应用管理与监控

1. OperatorHub与自定义Operator构建

OperatorHub（https://operatorhub.io/）是一个中央仓库，可用于发现和安装各种应用程序和功能的Operator。

要构建自定义Operator，可借助Operator Framework提供的强大工具包Operator SDK。它是一个开源工具，能帮助你开发和构建自定义Operator，从而掌控Kubernetes内的应用管理。Operator SDK简化了构建Operator的复杂过程，提供了预构建的组件和功能，可处理与Kubernetes API交互、管理自定义资源以及实现控制循环等常见任务，让你专注于特定应用的独特逻辑和配置需求。

构建自定义Operator有诸多优势：
- 精细控制应用管理：可根据应用的特定需求定制Operator，完美处理配置、部署策略和扩展要求。
- 自动化重复任务：自动处理与应用生命周期相关的重复任务，显著提高效率。
- 可重用性：为特定应用构建的Operator可在同一应用的不同部署中重复使用，节省管理Kubernetes基础设施的时间和精力。

你可以在https://sdk.operatorframework.io/ 了解更多关于Operator SDK的信息。

2. Operator Lifecycle Manager (OLM)

OLM简化了以Operator形式打包的应用程序的部署和管理过程。它使用YAML文件以声明方式指定资源，无需依赖特定顺序的复杂多文件部署。通过OLM，还能实现Operator的安装和自动升级，使其保持最新状态。此外，OLM具有名为Catalog Sources的包发现功能，可使用来自OperatorHub或其他自定义源的Operator。

使用OLM有以下优点：
- 降低部署复杂性：通过管理依赖项和顺序，减少部署的复杂性，可在大型集群中管理数千个Operator。
- 强制配置：确保应用按照期望的配置运行，便于推出和更新。
- 促进标准化：提供一致的方式将应用程序打包和部署为Operator，推动标准化。

与Helm相比，OLM更集成于Kubernetes，而Helm在其他部署场景中更为人熟知，拥有更丰富的包生态系统。

在了解Operator和OLM时，还需了解ClusterServiceVersion (CSV)。CSV是Kubernetes的Operator Lifecycle Manager的核心，它定义了Operator的名称、版本、简要描述，还规定了Operator正确运行所需的权限或角色、其管理的CRD、安装策略和升级流程。可参考文档（https://olm.operatorframework.io/docs/concepts/crds/clusterserviceversion/）了解更多关于CSV的信息。

3. 使用Prometheus和Grafana实现Kubernetes监控

要保持Kubernetes应用的健康和高性能，需要有一个强大可靠的环境，Prometheus和Grafana这类监控工具能提供帮助。Prometheus负责收集和存储Kubernetes集群的有价值指标，Grafana则将这些数据可视化，以易于理解的格式呈现，让你深入了解应用和基础设施的健康状况和行为。

传统部署包含Prometheus和Grafana的监控堆栈较为繁琐，手动编写多个YAML清单、处理依赖项和部署顺序不仅费力，还容易出错。而Prometheus和Grafana Operators提供了更高效、可维护的解决方案。

以下是在Kubernetes集群中部署Prometheus和Grafana的步骤：

3.1 安装Operator Lifecycle Manager (OLM)

可使用operator-sdk工具、Helm图表或应用Kubernetes YAML清单来安装OLM。这里使用基于install.sh脚本的安装方法：

$ curl -sL https://github.com/operator-framework/operator-lifecycle-manager/releases/download/v0.28.0/install.sh | bash -s v0.28.0

等待脚本完成，配置Kubernetes集群。完成后，使用以下命令验证olm命名空间中的Pods是否正在运行：

$ kubectl get pods -n olm

还可使用以下命令检查ClusterServiceVersion详细信息：

$ kubectl get csv -n olm

若状态为成功，则表示OLM已部署并准备好管理Operator。

3.2 使用OLM安装Prometheus和Grafana Operators

配置好OLM后，部署Operator很简单，多数情况下可在operatorhub.io的Operator页面找到安装命令和说明。

安装Prometheus Operator的步骤如下：
1. 在OperatorHub中搜索Prometheus Operator：

$ kubectl get packagemanifests | grep prometheus

使用OLM安装Prometheus Operator：

$ kubectl create -f https://operatorhub.io/install/prometheus.yaml

等待几分钟，确保Prometheus Operator正确部署：

$ kubectl get csv -n operators

验证Prometheus Operator的Pods是否正在运行：

$ kubectl get pods -n operators

同样，使用OLM查找并安装Grafana Operator：

$ kubectl create -f https://operatorhub.io/install/grafana-operator.yaml

验证后端创建的CRDs：

$ kubectl get crd

3.3 配置Prometheus和Grafana实例

使用标准YAML定义和CRD配置来创建新实例，步骤如下：
1. 创建一个命名空间来部署监控解决方案：

$ kubectl apply -f monitoring-ns.yaml

配置具有适当角色和RBAC的ServiceAccount：

$ kubectl apply -f monitoring-sa.yaml

准备新Prometheus实例的YAML文件（promethues-instance.yaml）：

apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
  name: example-prometheus
  namespace: monitoring
spec:
  replicas: 2
  serviceAccountName: prometheus
  serviceMonitorSelector:
    matchLabels:
      app.kubernetes.io/name: node-exporter

创建新的Prometheus实例：

$ kubectl apply -f promethues-instance.yaml

以类似方式部署Grafana实例：

# grafana-instnace.yaml
apiVersion: grafana.integreatly.org/v1beta1
kind: Grafana
metadata:
  labels:
    dashboards: grafana-a
    folders: grafana-a
  name: grafana-a
  namespace: monitoring
spec:
  config:
    auth:
      disable_login_form: 'false'
    log:
      mode: console
    security:
      admin_password: start
      admin_user: root

应用YAML定义创建Grafana实例：

$ kubectl apply -f grafana-instance.yaml

验证Prometheus和Grafana Operators在监控命名空间中创建的对象：

$ kubectl get pod,svc,sts -n monitoring

4. 启用Node Exporter并可视化数据

Node Exporter是Prometheus的一个导出器，可暴露主机的详细指标，如CPU使用率、内存使用率等系统级指标。它作为一个独立服务运行在Kubernetes集群的每个节点上，通过HTTP端点暴露这些指标。

以下是启用Node Exporter并可视化数据的步骤：
1. 创建Node Exporter DaemonSet：

$ kubectl apply -f node-exporter-daemonset.yaml

创建Node Exporter Service：

$ kubectl apply -f node-exporter-svc.yaml

创建serviceMonitor CRD：

$ kubectl apply -f servicemonitor-instance.yaml

验证Prometheus的监控数据：

$ kubectl port-forward -n monitoring svc/prometheus-operated 9091:9090

打开浏览器，访问http://localhost:9091/targets ，确保node-exporter对Prometheus可见。

可视化数据：

$ kubectl port-forward -n monitoring service/grafana-a-service 3000:3000

打开浏览器，访问http://localhost:3000 ，使用配置的登录凭据登录Grafana仪表板。

配置Grafana数据源：
从左侧菜单进入Connections | Data sources，选择Prometheus作为数据源，输入Prometheus URL（如http://prometheus-operated.monitoring.svc.cluster.local:9090），点击Save & test按钮。
创建或导入仪表板：
可从https://grafana.com/grafana/dashboards/ 找到Node Exporter Full仪表板，复制其ID，然后在Grafana WEBUI | Dashboards | New | Import中粘贴ID并导入。

通过以上步骤，你可以成功在Kubernetes集群上部署Prometheus和Grafana监控堆栈，并启用Node Exporter进行系统指标监控。

操作流程总结

graph LR
    A[安装OLM] --> B[安装Prometheus和Grafana Operators]
    B --> C[配置Prometheus和Grafana实例]
    C --> D[启用Node Exporter]
    D --> E[验证Prometheus数据]
    E --> F[可视化数据（Grafana）]
    F --> G[配置数据源和导入仪表板]

部署步骤表格

步骤	操作内容	命令示例
1	安装OLM	`$ curl -sL https://github.com/operator-framework/operator-lifecycle-manager/releases/download/v0.28.0/install.sh \| bash -s v0.28.0`
2	验证OLM Pods	`$ kubectl get pods -n olm`
3	检查CSV详情	`$ kubectl get csv -n olm`
4	搜索Prometheus Operator	`$ kubectl get packagemanifests \| grep prometheus`
5	安装Prometheus Operator	`$ kubectl create -f https://operatorhub.io/install/prometheus.yaml`
6	验证Prometheus Operator部署	`$ kubectl get csv -n operators`
7	验证Prometheus Operator Pods	`$ kubectl get pods -n operators`
8	安装Grafana Operator	`$ kubectl create -f https://operatorhub.io/install/grafana-operator.yaml`
9	验证CRDs	`$ kubectl get crd`
10	创建监控命名空间	`$ kubectl apply -f monitoring-ns.yaml`
11	配置ServiceAccount	`$ kubectl apply -f monitoring-sa.yaml`
12	创建Prometheus实例	`$ kubectl apply -f promethues-instance.yaml`
13	创建Grafana实例	`$ kubectl apply -f grafana-instance.yaml`
14	验证监控对象	`$ kubectl get pod,svc,sts -n monitoring`
15	创建Node Exporter DaemonSet	`$ kubectl apply -f node-exporter-daemonset.yaml`
16	创建Node Exporter Service	`$ kubectl apply -f node-exporter-svc.yaml`
17	创建serviceMonitor CRD	`$ kubectl apply -f servicemonitor-instance.yaml`
18	验证Prometheus数据	`$ kubectl port-forward -n monitoring svc/prometheus-operated 9091:9090`
19	可视化数据（Grafana）	`$ kubectl port-forward -n monitoring service/grafana-a-service 3000:3000`
20	配置Grafana数据源和导入仪表板	按照上述步骤操作

使用Helm Charts和Operator进行Kubernetes应用管理与监控

5. 操作要点与注意事项

在整个部署和配置过程中，有一些要点和注意事项需要关注：
- 敏感信息处理 ：在生产环境中，不要像示例中那样将配置和密码以明文形式直接写在YAML定义中，应使用Kubernetes Secrets来存储这些敏感数据。
- 错误排查 ：如果在配置Grafana数据源时收到错误消息，需检查使用的Prometheus URL，包括FQDN和端口号是否正确。
- 资源管理 ：随着集群规模的扩大，要注意资源的合理分配和管理，避免因资源不足导致监控系统性能下降。

6. 总结与回顾

通过上述一系列操作，我们实现了在Kubernetes集群上部署Prometheus和Grafana监控堆栈，并启用Node Exporter进行系统指标监控。整个过程可以总结为以下几个关键步骤：
1. OLM安装 ：为后续Operator的部署和管理提供基础。
2. Operator安装 ：安装Prometheus和Grafana Operators，简化监控堆栈的部署。
3. 实例配置 ：使用标准YAML定义和CRD配置创建Prometheus和Grafana实例。
4. Node Exporter启用 ：收集节点的详细系统指标。
5. 数据验证与可视化 ：验证Prometheus收集的数据，并在Grafana中进行可视化展示。

操作步骤对比表格

操作阶段	主要操作	命令或配置文件
OLM安装	下载并执行安装脚本	`$ curl -sL https://github.com/operator-framework/operator-lifecycle-manager/releases/download/v0.28.0/install.sh \| bash -s v0.28.0`
	验证Pods运行状态	`$ kubectl get pods -n olm`
	检查ClusterServiceVersion详情	`$ kubectl get csv -n olm`
Operator安装	搜索Prometheus Operator	`$ kubectl get packagemanifests \| grep prometheus`
	安装Prometheus Operator	`$ kubectl create -f https://operatorhub.io/install/prometheus.yaml`
	验证Prometheus Operator部署状态	`$ kubectl get csv -n operators`
	验证Prometheus Operator Pods运行状态	`$ kubectl get pods -n operators`
	安装Grafana Operator	`$ kubectl create -f https://operatorhub.io/install/grafana-operator.yaml`
	验证CRDs创建情况	`$ kubectl get crd`
实例配置	创建监控命名空间	`$ kubectl apply -f monitoring-ns.yaml`
	配置ServiceAccount	`$ kubectl apply -f monitoring-sa.yaml`
	创建Prometheus实例	`$ kubectl apply -f promethues-instance.yaml`
	创建Grafana实例	`$ kubectl apply -f grafana-instance.yaml`
	验证监控对象	`$ kubectl get pod,svc,sts -n monitoring`
Node Exporter启用	创建Node Exporter DaemonSet	`$ kubectl apply -f node-exporter-daemonset.yaml`
	创建Node Exporter Service	`$ kubectl apply -f node-exporter-svc.yaml`
	创建serviceMonitor CRD	`$ kubectl apply -f servicemonitor-instance.yaml`
数据验证与可视化	验证Prometheus数据	`$ kubectl port-forward -n monitoring svc/prometheus-operated 9091:9090`
	可视化数据（Grafana）	`$ kubectl port-forward -n monitoring service/grafana-a-service 3000:3000`
	配置Grafana数据源和导入仪表板	按照上述步骤操作

操作流程细化图

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px

    A([开始]):::startend --> B(安装OLM):::process
    B --> C(安装Prometheus和Grafana Operators):::process
    C --> D{Operator安装成功?}:::decision
    D -->|是| E(配置Prometheus和Grafana实例):::process
    D -->|否| C
    E --> F(启用Node Exporter):::process
    F --> G(验证Prometheus数据):::process
    G --> H{数据验证成功?}:::decision
    H -->|是| I(可视化数据（Grafana）):::process
    H -->|否| G
    I --> J(配置数据源和导入仪表板):::process
    J --> K([结束]):::startend

通过以上的操作和配置，你可以有效地在Kubernetes集群中搭建起一套完整的监控系统，实时监控集群的运行状态和性能指标，为应用的稳定运行提供有力保障。同时，利用Operator和OLM的优势，简化了部署和管理的复杂度，提高了工作效率。在实际应用中，你可以根据具体需求对监控系统进行进一步的定制和优化。