
分布式系统监控
文章平均质量分 67
介绍分布式系统监控的相关知识及开源的系统监控报警框架Prometheus。
peterwanghao
这个作者很懒,什么都没留下…
展开
-
SpringBoot集成Druid内置监控详解
Druid的监控统计功能是通过filter-chain扩展实现,采集的信息非常全面,包括SQL执行、并发、慢查、执行时间区间分布等。并且Druid内部提供了一个Servlet用于展示Druid的统计信息。想要集成SQL监控页面需要在yml中增加如下内容:spring: datasource: druid: # StatViewServlet配置 sql监控 stat-view-servlet: enabled: true url-pat原创 2021-08-03 13:32:50 · 3599 阅读 · 1 评论 -
SpringBoot集成Druid连接池进行SQL监控
Druid连接池是阿里巴巴开源的数据库连接池项目。Druid连接池为监控而生,内置强大的监控功能,监控特性不影响性能。Druid的监控统计功能是通过filter-chain扩展实现,采集的信息非常全面,包括SQL执行、并发、慢查、执行时间区间分布等。并且Druid内置提供了一个StatViewServlet用于展示Druid的统计信息,提高html页面展示非常完备的监控信息,可以快速诊断系统的瓶颈。而Druid增加StatFilter之后,能采集大量统计信息,同时对性能基本没有影响。StatFilter原创 2021-07-29 22:07:26 · 2004 阅读 · 0 评论 -
开源监控系统Prometheus配置说明
Prometheus可以通过命令行参数和配置文件进行配置。虽然命令行参数可以配置一些不可变的系统参数(例如存储位置,保留在磁盘和内存中的数据量等),但配置文件能够定义与抓取作业及其实例相关的所有内容,以及哪些规则文件可以被加载等。要查看所有可用的命令行参数,请运行./prometheus -h。Prometheus可以在运行时重新加载其配置。如果新配置的格式不正确,则不会应用更改。如果想要重载...原创 2019-04-25 16:45:21 · 1915 阅读 · 0 评论 -
开源监控系统Prometheus入门操作介绍
本文是一个“Hello World”风格的教程,演示了如何在简单的示例设置中安装,配置和使用Prometheus。您将在本地下载并运行Prometheus,然后将其自己看做一个应用程序来进行监控,同时使用Node Exporter采集主机数据。最后通过仪表盘来使用收集的时间序列数据。安装为您的平台下载最新版本的Prometheus,然后解压缩并运行它:$ wget https://githu...原创 2019-04-18 17:43:30 · 2010 阅读 · 0 评论 -
开源监控系统Prometheus中的一些概念
Prometheus从根本上是将所有数据存储为时间序列(属于同一度量的时间戳值和相同的标记维度集)。除了存储的时间序列,Prometheus还可以生成临时派生的时间序列作为查询的结果。数据模型每个时间序列都由指标名称(metric name)和一组 键值对(lables)来唯一标识。指标名称(metric name)表示被测量的系统的某一特性(例如http_requests_total表示接...原创 2019-04-10 15:21:09 · 1176 阅读 · 0 评论 -
开源监控系统Prometheus架构说明
Prometheus 是一套开源的系统监控报警框架。它是由 google 前员工在 2012 年创建,作为社区开源项目进行开发,并于 2015 年正式发布。2016 年,Prometheus 正式加入 Cloud Native Computing Foundation。Prometheus架构如下:从图中可看到包含以下主要组件:Prometheus Server: 用于收集和存储时间序列...原创 2019-04-09 14:40:51 · 3433 阅读 · 0 评论 -
基础设施主机监控指标
基础设施监控是基础设施管理的一个组成部分,它是防御意外停机的第一道防线。要想评估主机的运行状况,可以为每个主机捕获以下性能指标:CPU内存磁盘(存储健康)网卡(网络健康)CPU健康CPU使用率是用于计算CPU运行状况的主要度量。这是CPU忙于处理数据的时间百分比(即,它不是空闲时)。此百分比是针对所有可用CPU核心计算的,设定的范围在0–100%。相同的计算方法可用于系统的总CP...原创 2019-04-03 21:42:24 · 2090 阅读 · 1 评论 -
数据库监控指标
数据库是系统健康和用户行为健康的重要指标。数据库中的异常行为可能会引起应用程序中的问题。或者,当您的应用程序中存在异常时,您可以使用数据库指标来帮助加快调试过程。开始监控数据库的最佳方法是确定一些基本的,与具有数据库类型无关的指标。这些指标为理解数据库的运行创造了良好的开端。吞吐量:数据库的处理能力开始监视数据库的最简单方法是跟踪数据库接收的请求数。我们对数据库抱有很高的期望; 我们希望它们...原创 2019-03-13 22:02:49 · 8838 阅读 · 1 评论 -
网络性能监控指标
网络性能监控(Network Performance Monitoring NPM)是指用户体验到的测量,诊断和优化网络服务质量的过程。NPM是应用程序性能管理(Application Performance Management APM)的补充。网络性能监控解决了网络在最终用户体验中的作用。这包括以下指标:Latency 延迟 - 获取数据包响应所需的时间。这是双向测量的。测量的一个方向是...原创 2019-03-12 23:45:11 · 8003 阅读 · 3 评论 -
4个开源监控工具介绍
围绕监控的术语近年来引起了很多混乱,导致一些糟糕的工具宣称能够以一种格式完成所有事情。可观测性的支持者认识到观察一个系统有许多层次。度量标准聚合中最主要的是时间序列数据,这里有许多工具可用,包括开源和商业。我们将专注于开源工具,但其中有包含带有付费组件的开放核心模型。Prometheus这是原生云应用程序中最受认可的时间序列监控解决方案。目前它由Cloud Native Computing F...原创 2018-12-28 22:37:52 · 7247 阅读 · 5 评论 -
Grafana与Kibana之间的比较
我们生活在一个大数据的世界中,即使是一个小型的IT环境也会产生大量数据。一旦组织弄清楚了生成数据的各种数据源,以及收集,处理和存储数据的方法,下一步工作的重点就是分析。分析方法会根据用例、使用的工具以及数据本身而有所不同,但是可视化数据的步骤,无论是日志,度量标准还是跟踪,现在都被视为标准的最佳实践。可视化数据可帮助团队监控其环境,检测模式并在识别异常行为时采取措施。在诊断和事后分析原因的情况下...翻译 2018-11-28 22:48:56 · 18369 阅读 · 1 评论 -
一些好用的开源监控工具汇总
监控系统是整个 IT 架构中的重中之重,小到故障排查、问题定位,大到业务预测、运营管理,都离不开监控系统,可以说一个稳定、健康的 IT 架构中必然会有一个可信赖的监控系统。但是,难道监控就只是监控?多年来,对于监控的术语一直都有很多困惑,一些很糟糕的工具也宣称能够以一种格式完成所有事情。在 DevOps 和云原生时代,今年,“可观察性”(Observability)被引入到了 IT 领域,其首...转载 2018-10-08 11:14:29 · 19611 阅读 · 0 评论 -
基础设施与应用监控之监视分布式和微服务系统
介绍系统和基础设施监控是各种规模的运营团队的核心职责。行业里已经开发了许多策略和工具,以帮助监控服务器,收集重要数据,并响应不同环境中的事件和不断变化的条件。但是随着软件方法和基础设施设计的发展,监控必须适应新的挑战并在相对不熟悉的领域提供洞察力。到目前为止,在本系列中,我们已经讨论了什么是指标,监控和警报以及良好的监控系统所具备的特征。我们讨论了从基础架构和应用程序收集指标以及在整个基础架构...翻译 2018-09-29 10:09:09 · 1011 阅读 · 0 评论 -
基础设施与应用监控之监控与报警实践
介绍监控系统有助于提高基础架构和应用程序的可视性,并定义可接受的性能和可靠性范围。通过了解要测量的组件以及针对不同方案关注的最合适的指标,您可以开始规划涵盖服务的所有关键部分的监控策略。在我们关于从您的基础架构和应用程序收集指标的指南中,我们引入了一个流行的框架来识别高价值指标,然后将部署分层,以讨论在不同阶段收集的内容。在本文中,我们将讨论构成监控系统的组件以及如何使用它们来实施监控策略。我...翻译 2018-09-27 10:05:13 · 784 阅读 · 0 评论 -
基础设施与应用监控之收集度量指标
概述了解系统状态对于确保应用程序和服务的可靠性和稳定性至关重要。有关部署的运行状况和性能的信息不仅可以帮助您的团队对问题做出反应,而且还可以让他们放心地进行更改。获得这种洞察力的最佳方法之一是使用强大的监控系统,该系统可收集指标,可视化数据,并在事情出现故障时向操作员发出警报。在我们对指标,监控和警报的介绍中,我们讨论了监控软件和基础架构中涉及的一些核心概念。度量指标是监视系统处理的主要材料,...翻译 2018-09-25 11:33:15 · 1719 阅读 · 0 评论 -
基础设施与应用监控之指标、监控和报警简介
概述了解基础设施和系统的状态对于确保服务的可靠性和稳定性至关重要。有关部署的运行状况和性能的信息不仅可以帮助您的团队对问题做出反应,而且还可以让他们放心地进行更改。获得这种洞察力的最佳方法之一是使用强大的监控系统,该系统收集指标,可视化数据,并在事情出现故障时向操作员发出警报。在本文中,我们将讨论什么是指标,监控和警报。我们将讨论它们为何重要,一般情况下你需要关注哪些类型的指标以及您可能希望跟...翻译 2018-09-20 12:35:08 · 7824 阅读 · 2 评论