基础设施主机监控指标

基础设施监控是基础设施管理的一个组成部分,它是防御意外停机的第一道防线。要想评估主机的运行状况,可以为每个主机捕获以下性能指标:

  • CPU
  • 内存
  • 磁盘(存储健康)
  • 网卡(网络健康)

CPU健康

CPU使用率是用于计算CPU运行状况的主要度量。这是CPU忙于处理数据的时间百分比(即,它不是空闲时)。此百分比是针对所有可用CPU核心计算的,设定的范围在0–100%。

相同的计算方法可用于系统的总CPU使用率和特定进程组的CPU使用率。这意味着由4核系统上的单线程进程组成的进程组将达到最大CPU使用率25%(4 x 25%= 100%)。

高CPU使用率测量会定位导致CPU饱和“资源事件”发生所产生问题。

内存健康

通常包括两个与主机相关的内存指标,内存使用Page Fault。所有测量和其他因素都用于关联计算主机高内存事件。

  • 内存使用

进程使用的总RAM百分比。系统缓存和缓冲区使用的RAM不包含在此度量标准中。

  • Page Fault

每秒的主要页面故障的次数。主要页面错误涉及从磁盘加载页面,从而为中断程序的执行添加磁盘延迟。

磁盘健康

磁盘健康包括:

  • 吞吐量

每秒读取和写入磁盘的总字节数。

  • IOPS

I / O(输入/输出)操作。在合并相邻磁盘扇区的操作之后计算操作。

  • 磁盘延迟

从I / O请求提交到I / O请求完成的时间。磁盘读写操作的平均延迟(以毫秒为单位)。此度量标准用于检测主机慢速磁盘事件。

  • 磁盘空间使用量

已使用的磁盘空间量。

  • 空闲时间

磁盘空闲的时间。

网卡健康

NIC健康包括:

  • 流量

在间隔期间传输数据的平均速率。

  • 数据包

间隔期间主机网络接口上接收和发送的数据包数。

  • 出错率

评估丢弃的数据包和错误的数量。

  • 连接

与已拒绝或超时的TCP连接相比,正确建立的TCP连接的百分比。

注:该连接指标可作为对是否有一台主机上的网络流量的指标。但请注意,0%连接并不一定表示主机存在问题。假设不存在TCP错误,则可能只是意味着在所选时间范围内没有用户尝试连接到主机进程。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

peterwanghao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值