自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 【故障定位系列】波动度故障

耗时波动不同,会产生不同程度的故障,如何自适应定位?

2025-06-03 09:57:57 346

原创 乘云数字获评“鑫智奖·2025专家推荐TOP10优秀解决方案”,赋能银行新核心系统运维

为促进金融企业数据管理和数据平台智能化转型,金科创新社主办了“鑫智奖·第七届金融数据智能优秀解决方案评选”活动。其中,乘云数字DataBuff平台斩获 “专家推荐TOP10优秀解决方案” 奖项,彰显了乘云数字在金融科技领域的创新实力。

2025-05-09 18:04:03 587

原创 从第一性原理出发,探索如何做故障的根因定位

在微服务和云原生环境下进行故障定位通常会面临以下困难://文章中,“可能”二字用的比较多,建议优化成通常或其他的词语分布式系统复杂性:微服务架构中,系统被拆分为多个小型服务,每个服务通常运行在不同的容器或虚拟机中,甚至可能部署在不同的云平台上。当一个问题发生时,需要跨多个服务、多个主机或者多个云服务来追踪问题的根源,这增加了故障定位的复杂性服务间依赖性:微服务架构中,各个服务之间通常通过API或消息传递进行通信。如果某个服务出现问题,可能会影响到其它依赖的服务,造成级联故障。

2025-05-09 14:00:13 800

原创 基于因果AI与DeepSeek的故障定位实践:技术解析与落地应用

整个输出的结果可解释性和可操作性更强,能够帮助运维人员快速理解业务生产环境中故障发生的前因后果,通过将业务生产情境数据与DeepSeek大模型的专家知识结合,生成的故障根因分析结论更详细,更专业,更契合实际情况。选择最有价值的故障场景,从各个数据源(指标,日志,链路,业务数据)抽取有价值的数据并执行数据清洗,转化成标准的数据格式供机器学习模型使用;我们可以看到,基于因果AI的故障定位方案以及基于DeepSeek的故障定位方案两者通过不同的推理方法,针对同一个故障场景,产生了一致的故障根因分析结果。

2025-05-09 13:59:04 683

原创 【故障定位系列】容器CPU问题引起的故障如何快速排查

当生产环境中的容器CPU出现异常时,可能会引发上层业务出现一系列问题,比如业务请求缓慢、网页卡顿甚至崩溃等,如果没有一个有效的故障定位方法,运维人员很难从海量的告警信息中快速找到根本原因并解决问题。

2025-05-08 18:49:09 823

原创 第三届eBPF开发者大会上,乘云技术专家分享eBPF在故障定位场景中的应用

2025年4月19日,西安邮电大学计算机学院的在长安校区如期举行。本届大会选择以线下举办、线上同步直播的形式进行,吸引了众多技术爱好者和行业专家的关注。乘云数字技术专家匠心受邀参加,并为大家呈上了“ebpf在故障定位中的应用”的主题演讲。

2025-04-28 10:55:45 692

原创 【故障定位系列】基于DeepSeek的故障定位大揭秘

引入DeepSeek后,大模型承担更多智能化工作,我们只需要提供数据源即可。

2025-04-24 15:42:19 988

原创 开放注册!RootTalk Sandbox沙盒系统正式上线

RootTalk SandBox可以帮助您解决故障场景难以清晰定义、对故障定位的级别和颗粒度不满意、故障定位时间所需时间太长、对于定位结果的可解释性总是摇头、所有故障定位效果难以量化等问题。

2025-04-22 15:37:17 378

原创 【故障定位系列】服务&接口双粒度动态拓扑,精准定位共享连接池故障

以共享连接池场景为例,提出一种利用服务&接口双粒度动态拓扑进行故障定位的方案。

2025-04-09 15:12:26 928

原创 【故障定位系列】电商业务系统告警频发,如何快速实现应用接口级故障定位

Web应用故障如何实现接口级别的根因定位?利用算法和接口耗时分解,可轻松解决难题。文中有演练和定位方法,结合RootTalk Sandbox(https://sandbox.databuff.com/),可以立即上手体验。

2025-04-03 15:10:30 810

原创 RUM性能监控之数据埋点

前端数据埋点是一种常见的技术手段,它能够通过代码或工具在前端应用中采集用户行为、页面性能、错误日志等数据,帮助开发者或产品经理分析用户操作路径、诊断问题并优化体验。简单来说,埋点就是“在需要的位置记录下关键事件的发生和相关信息”,比如记录用户点击了某个按钮,页面加载花费了多少时间,或某个 API 请求是否成功。下文中将详细介绍数据埋点的价值、目标、埋点方式以及常见的挑战与解决方案。

2025-02-17 09:32:10 2331

原创 RUM实践-累计布局偏移(CLS)的探索

优化网页性能,提升用户体验,Google 的 Core Web Vitals 标准中 CLS 至关重要。本文揭秘如何用 DATABUFF RUM 工具改善 CLS,打造稳定流畅的页面体验。

2025-01-21 17:46:50 783

原创 RUM实践-最大内容绘制(LCP)优化

LCP(最大内容绘制)是衡量网页加载速度的重要指标,反映用户首次看到主要内容的时间。优化LCP可以提升用户体验,包括加快服务器响应、减少阻塞资源、优化图片等。

2025-01-09 11:24:45 638

原创 业务观测:从定义到场景化分析

业务事件是指与特定业务逻辑相关的操作或事件。为了能够以业务视角进行观测,我们需要先对业务事件进行定义,明确其业务含义。例如,将 web应用服务 中的 POST /user/login 请求定义为“登录”业务。业务场景是指由多个业务事件组成的业务流程。通过创建业务场景,可以将各个业务事件串联起来,形成一个完整的业务流程进行分析。

2024-12-16 17:39:18 926

原创 【喜报】华夏银行联合乘云数字获评 “中国信通院可观测性实践典型案例“

华夏银行联合乘云数字打造的“应用可观测性及故障定位技术实践”从100多家申报案例中脱颖而出,荣获 银行业可观测实践典型案例殊荣。

2024-12-13 10:56:53 248

原创 杭州乘云联合信通院发布《云计算智能化可观测性能力成熟度模型》

《云计算智能化可观测性能力成熟度模型》行业标准正式发布。该标准由中国信通院牵头,移动云、阿里云、中兴、科来、浪潮、乘云数字、腾讯云、等行业技术专家共同参与撰写。

2024-12-13 10:09:48 895

原创 某充电桩业务服务内存监控和程序行为分析

在当今数据驱动的环境中,理解内存指标和程序行为对于确保应用程序的性能和可靠性至关重要。在依赖实时数据处理和高可用性的行业中尤其如此。通过利用可观测工具,可以深入了解应用程序如何使用内存,识别性能瓶颈,观察系统运行状态。而且随着最近几年业务系统的复杂性增加,很多高负荷的组件,需要更多的内存去运行,而且这些组件对性能的要求又比较严苛。所以通过监控内存指标,分析程序行为并对行为进行异常预测和及时告警就显得很重要。

2024-11-29 09:58:13 690

原创 OpenTelemetry 赋能DevOps流程的可观测性革命

深入探讨 OpenTelemetry 如何与左移和 GitOps 策略相结合,赋能 DevOps 流程中的各个环节。

2024-11-15 17:25:02 1312

原创 【最新资讯】乘云数字 荣获中国信通院“稳定性保障实验室理事单位证书”!

近日,乘云数字荣获中国信通院稳定性保障实验室理事单位证书!

2024-11-06 10:58:02 387

原创 【最新资讯】乘云数字荣获信创工委会“技术活动单位”证书!

乘云数字经成为中国电子工业标准化技术协会、信息技术应用创新工作委员会技术活动单位!

2024-11-06 10:51:01 270

原创 JVM性能优化实战手册:从监控到调优策略

在当今高度依赖Java技术栈的软件开发领域,Java虚拟机(JVM)的性能优化是提升系统响应速度、降低资源消耗、确保服务稳定性的关键环节。本文旨在深入探讨围绕DataBuff驱动的JVM性能优化实战,从监控到实施调优策略的全过程,为读者提供一套实战性强、可操作的优化指南。

2024-10-31 16:47:24 1130

原创 RUM性能优化之图片加载

RUM通过浏览器脚本收集用户访问数据,能够帮助开发者根据真实体验优化网站。本文深入探讨RUM 在图片加载性能优化中的应用,旨在为网站开发者提供实用的策略和技巧。

2024-10-12 11:24:05 1978 1

原创 企业如何选择合适的可观测产品

数字化进程的推进,使得不同企业对于数字化可观测产品提出了各种差异化的需求。本文先是具体分析了不同类型的企业对于可观测产品的直接需求和痛点,描述了可观测产品的所能提供的更丰富的实际应用场景。紧接着从开源产品,国外商业产品,以及databuff产品分别阐述各自的解决方案特性。最后,本文给出了针对不同类型企业选择可观测产品所需要考虑的主要策略和原则方针。

2024-09-24 14:16:10 892

原创 Zabbix 2024 中国峰会在上海举办,Databuff 携最业界领先研发成果重磅亮相

其中展示了利用可观测技术实现故障定位的优秀案例,引起了场下参会人员的关注,包括Alexei在内的诸多行业内专家都表示对此非常感兴趣,现场座无虚席。大会开始,Zabbix创始人Alexei Vladishev介绍了Zabbix7.0新功能以及未来的发展蓝图。会场外,乘云Databuff展台上人头攒动,参会者们纷纷前来咨询,我们为大家提供了产品资料、可观测性建设指南。9月13日,Zabbix中国峰会在上海圆满结束。后续,我们会将乘云Databuff在本次大会中演讲的内容和技术细节做好整理并分享出来,敬请期待!

2024-09-18 09:54:38 357

原创 一文带你了解可观测领域中APM与eBPF的技术差异

近年来,随着eBPF技术的兴起,很多人有这样的疑惑:eBPF和APM有什么区别?他们是竞争关系还是合作关系?本文将就此展开讨论,并给出切实有效的落地方案。APM全称:Application Performance Management。目前市场上的APM方案大多是参考Google的Dapper(大规模分布式系统的跟踪系统)实现的,如Cat、Skywalking。

2024-08-29 18:08:27 803

原创 OpenTelemetry:新一代的开源可观测性标准

OpenTelemetry是由OpenTracing和OpenCensus两个开源项目合并而成,由云原生计算基金会(CNCF)托管。该项目旨在提供一套标准化的、跨语言的观测性工具,帮助开发人员和运维人员更好地理解和管理分布式系统的性能和行为。通过统一的Metrics(指标)、Logs(日志)和Traces(追踪)数据模型,OpenTelemetry使得数据收集、处理和分析变得更加高效和便捷。

2024-08-15 17:56:10 2846

原创 RUM技术探索:前端监控数据采集与实践

RUM前端监控让开发者能够深入了解应用的表现情况,以及用户是如何与其互动的。本文将深入探讨前端监控的基本原理和实际操作方法,讲述Databuff在这方面是怎么做的。DataBuff RUM功能即将发布,带来新的用户体验,敬请期待!

2024-08-06 10:30:02 793

原创 最新资讯!2024可信云大会重磅发布《可观测性能力建设指南》!

指南》是一本能够帮助企业建设、完善可观测性系统,助力企业加快、稳固数字化转型的指导性报告,报告中精心设计了一套全方位可观测性建设蓝图,覆盖建设目标、建设方案、建设路径、技术运营、应用场景多个方面,还提出了对未来可观测技术的展望。《指南》为企业在各领域内的服务与技术创新提供了技术保障,助力企业在保障客户系统稳定性的同时,不断优化用户体验、支撑业务增长、降低业务风险、优化产品和服务、快速反应市场变化、提高客户满意度和口碑,携手客户共赴数字化转型的新征程。为了帮助企业规划其可观测性建设的路径,

2024-07-25 10:00:27 315

原创 乘云数字受邀Zabbix MeetUp济南站,分享《DataBuff在打造可观测性数据底座上的探索》

7月20日,Zabbix主办的MeetUp线下活动在济南圆满举行,众多技术大咖汇集现场,交流技术知识、分享先进的思想。乘云数字受邀参加此次盛宴,创始人兼CEO向成钢在现场发表了关于“DataBuff在打造可观测性数据底座上的探索”的主题演讲。过去单点的监控技术一直在沿着线性演进的技术路线上做“加法”,而云在做“减法”。传统的监控技术已经难以应对云原生带来的挑战。数字化应用从业务需求的角度对实时性准确性提出了更高的要求,而底层基础设施云化微服务化的趋势,对稳定性提出了更大的挑战:如何构建端到端全链路跟踪?

2024-07-23 10:53:20 952

原创 异常检测之多指标关联分析及告警通知

【示例】服务实例多指标异常检测, 【服务实例响应时间】服务实例响应时间超过正常水平, 【响应时间】错误率动态基线] , [数据库服务] , [web应有服务] , [192.168.24.14] 产生告警,请及时关注。上文展示了如何在复杂的IT运维环境中,通过Databuff平台中应用服务性能的多个指标、多条件、多种检测算法,可以有效地监控应用服务、服务实例是否健康,便于运维人员及时发现问题,辅助分析定位问题源头。选取服务平均响应时间,服务错误率,服务cpu使用率,服务内存使用率,服务性能指标。

2024-07-22 11:18:39 1188

原创 《可观测性能力建设指南(2024年)》即将在2024可信云大会上发布

2023年9月,稳定性保障实验室联合多家企业发布《可观测性建设成熟度模型白皮书》,这标志着可观测性技术逐步向标准化和成熟化迈进。“可观测性”最早起源于控制理论,‌近年来这一概念在IT运维领域发展迅速。随着传统企业数字化转型的脚步,IT基础设施逐步上云,业务应用也随之从单一的本地部署转变为灵活的云原生架构,传统的监控、运维方案不再适用新的环境,这部《指南》旨在进一步细化与强化可观测性体系建设的标准,确保可观测性系统的健全与高效,为企业的数字化转型进程加速并巩固成果保驾护航。:2024年7月23日(下周二)

2024-07-19 18:56:12 568

原创 云原生NPM数据采集和指标计算方法

DataBuff带你深入了解云原生NPM:解析关键数据结构,展示如何捕获性能指标并与应用关联,助您优化网络性能、快速解决故障。敬请期待后续eBPF应用详解。

2024-07-11 16:48:15 1290

原创 深入理解JVM:内存管理与垃圾回收机制探索

JVM是什么?Java虚拟机(JVM)是Java程序的运行环境,它负责将编写的Java字节码转换为特定操作系统上的机器指令,并管理程序的运行时环境。简而言之,JVM是Java跨平台特性的基石。JVM的重要性JVM允许Java程序在不同的硬件和操作系统上无缝运行,无需重新编译。它不仅管理内存分配、垃圾回收等底层任务,还通过即时编译(JIT)提升运行效率,确保了Java应用的高性能与可移植性。

2024-07-08 10:18:18 966

原创 如何打造开放领先的可观测性数据底座

6月28日,龙蜥社区“走进系列”第 11 期-智能可观测运维技术MeetUp活动在成都举行。活动邀请了来自阿里云、谐云科技、乘云数字、中兴通讯、云杉网络、浪潮信息等企业和社区的资深技术专家在此进行了一次深度的技术交流和分享,聚焦系统运维的前沿技术,深入探讨在Al、eBPF 等技术的不断发展浪潮中,运维技术将会向何种方向迈进。会上,乘云数字的副总裁张怀鹏,做了一次关于“如何打造开放领先的可观测性数据底座”的分享。

2024-07-02 09:57:07 584

原创 浅谈Java Profiling

在应用性能/详细分析/热点方法 标签页能够看到当前应用内每个业务代码入口的cpu使用时间占整体应用的百分比,假设 ServiceController.endpoints 请求执行耗费cpu比例飙高,那么可以按层级打开,类似火焰图形式查看最顶层的代码及其耗费cpu比例。arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,可方便地记录分析cpu,内存分配,锁等事件(底层使用async-profiler实现)。

2024-06-27 17:03:22 767

原创 抑制告警风暴,我们可以做些什么

在日常运维工作中,告警风暴总是作为一个不可忽视但又无法避免的问题,本文带大家了解DataBuff是如何解决告警风暴的

2024-06-19 16:30:04 855

原创 云原生NPM与传统NPM的差异

以eBPF技术为主的NPM监控在市场日趋火热,本文主要以Packet作为处理目标展开对传统NPM与云原生NPM的差异化分析,带领大家了解二者的优劣势。

2024-06-12 16:21:30 763 1

原创 JVM关键指标梳理及DATABUFF监控实践

在现代软件开发与运维领域,Java虚拟机(JVM)的性能监控至关重要,它直接关系到应用的稳定性、响应速度及资源利用率。本文深入剖析了JVM的核心监控指标,从内存管理的细微之处到线程调度的宏观视图,再到垃圾回收(GC)策略的评估与优化,为读者构建了一个全面而深入的知识框架。另外,我们通过Databuff这一先进的数据可观测平台展示了如何将理论知识转化为实践行动,以应对实际工作中的各种挑战。

2024-06-07 09:50:35 1400

原创 RUM是什么?它能解决什么问题?

随着数字化转型的普及,数字化体验的要求越来越高,业务系统所有者越来越关注真实终端的用户体验质量。本文将通过简单的介绍,带你了解RUM技术是什么,如何监控并改善真实用户体验的质量,它的技术原理、数据采集方法,及其能够解决的主要问题。

2024-05-31 10:36:41 887

原创 带你一起阅读《Forrester Wave:AIOps 调研报告》

根据AIOps软件供应商提供的35项标准评测,我们筛选并确定了11家最具代表性的公司。这些公司包括Datadog、Digitate、Dynatrace、Elastic、LogicMonitor、Micro Focus、New Relic、OpsRamp、ScienceLogic、Splunk和Zenoss。我们对这些公司进行了深入的研究和分析,并对它们进行了评分。这份报告详细地展示了每家供应商在评测中的表现,旨在帮助技术专业人士根据他们的需求,从这些领先的AIOps解决方案中选择最合适的解决方案。▐。

2024-05-24 17:22:24 1110 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除