HDFS监控背后那些事儿，构建Hadoop监控共同体

最新推荐文章于 2025-01-13 13:51:59 发布

焦振清

最新推荐文章于 2025-01-13 13:51:59 发布

阅读量2.8k

点赞数

分类专栏：监控文章标签： HDFS HADOOP CDH ARMARI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43947499/article/details/85157239

版权

本文探讨了HDFS监控面临的挑战，包括适用于多种Hadoop组件、故障快速响应等。介绍了Hadoop监控工具CDH和Ambari的优缺点，并提出了基于HadoopExporter、Prometheus、ELK和Grafana的监控方案。同时，详细列举了HDFS的主要监控指标，如Block丢失、数据节点健康、错误日志、磁盘故障和网络流量等，以及如何通过Grafana仪表盘、ELK日志分析和Hue、HDFS UI进行问题排查。最后分享了两个实际案例，展示了监控在解决DNS故障和机架分组问题中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS监控挑战

HDFS是Hadoop生态的一部分，监控方案不仅需适用HDFS，其他组件如Yarn、Hbase、Hive等，也需适用
HDFS API提供的指标较多，部分指标没必要实时采集，但故障时需能快速获取到
Hadoop相关组件的日志，比较重要，如问题定位、审计等
监控方案不仅能满足监控本身，故障定位涉及指标也应覆盖

Hadoop监控方案

Hadoop监控数据采集通过HTTP API，或者JMX。实际中，用到比较多的产品主要有：CDH、Ambari，此外，还有部分工具，如Jmxtrans、HadoopExporter（用于Prometheus）。

CDH为Cloudera公司开源的一款集部署、监控、操作等于一体的Hadoop生态组件管理工具，也提供收费版（比免费版多提供数据备份恢复、故障定位等特性）。CDH提供的HDFS监控界面在体验上是非常优秀的，是对HDFS监控指标深入发掘之后的浓缩，比如HDFS容量、读写流量及耗时、Datanode磁盘刷新耗时等。

图1 CDH提供的HDFS监控界面

Ambari与CDH类似，它是Hortonworks公司（与Cloudera公司已合并）开源。它的扩展性要比较好，另外，它的信息可以从机器、组件、集群等不同维度展现，接近运维工程师使用习惯。

图2 Ambari提供的HDFS监控界面

如果使用CDH，或者Ambari进行HDFS监控，也存在实际问题：

对应的Hadoop及相关组件版本不能自定义
不能很好的满足大规模HDFS集群实际监控需求

其他工具，如Jmxtrans目前还不能很好适配Hadoop，因此，实际的监控方案选型为：

采集：HadoopExporter，Hadoop HTTP API（说明：HDFS主要调用http://{domain}:{port}/jmx）
日志：通过ELK来收集、分析
存储：Prometheus
展现：Grafana，HDFS UI，Hue
告警：对接京东云告警系统

HDFS监控指标

主要指标概览

表1 HDFS主要监控指标概览

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。