基础设施监控是基础设施管理的一个组成部分,它是防御意外停机的第一道防线。要想评估主机的运行状况,可以为每个主机捕获以下性能指标:
- CPU
- 内存
- 磁盘(存储健康)
- 网卡(网络健康)
CPU健康
CPU使用率是用于计算CPU运行状况的主要度量。这是CPU忙于处理数据的时间百分比(即,它不是空闲时)。此百分比是针对所有可用CPU核心计算的,设定的范围在0–100%。
相同的计算方法可用于系统的总CPU使用率和特定进程组的CPU使用率。这意味着由4核系统上的单线程进程组成的进程组将达到最大CPU使用率25%(4 x 25%= 100%)。
高CPU使用率测量会定位导致CPU饱和“资源事件”发生所产生问题。
内存健康
通常包括两个与主机相关的内存指标,内存使用和Page Fault。所有测量和其他因素都用于关联计算主机高内存事件。
- 内存使用
进程使用的总RAM百分比。系统缓存和缓冲区使用的RAM不包含在此度量标准中。
- Page Fault
每秒的主要页面故障的次数。主要页面错误涉及从磁盘加载页面,从而为中断程序的执行添加磁盘延迟。
磁盘健康
磁盘健康包括:
- 吞吐量
每秒读取和写入磁盘的总字节数。
- IOPS
I / O(输入/输出)操作。在合并相邻磁盘扇区的操作之后计算操作。
- 磁盘延迟
从I / O请求提交到I / O请求完成的时间。磁盘读写操作的平均延迟(以毫秒为单位)。此度量标准用于检测主机慢速磁盘事件。
- 磁盘空间使用量
已使用的磁盘空间量。
- 空闲时间
磁盘空闲的时间。
网卡健康
NIC健康包括:
- 流量
在间隔期间传输数据的平均速率。
- 数据包
间隔期间主机网络接口上接收和发送的数据包数。
- 出错率
评估丢弃的数据包和错误的数量。
- 连接
与已拒绝或超时的TCP连接相比,正确建立的TCP连接的百分比。
注:该连接指标可作为对是否有一台主机上的网络流量的指标。但请注意,0%连接并不一定表示主机存在问题。假设不存在TCP错误,则可能只是意味着在所选时间范围内没有用户尝试连接到主机进程。