作者:来自 Elastic Elastic Observability Team
这听起来很简单:你定义成功的指标,跟踪它们,如果失败了,就修复它们。几十年来,企业一直用这种方式监控系统。然而,随着数字架构变得更加复杂,事后响应的监控方法 —— 只有在问题已经影响运营后才发出警报 —— 变得不足够。
传统监控可以帮助发现问题,但通常缺乏深入了解环境、依赖关系以及系统性能对业务影响的能力。为了解决这些挑战,监控发展成了可观测性,提供更深层次的洞察和主动的问题解决能力。
可观测性是一种全面的方法,帮助企业实时探索和分析系统。现代可观测性提供统一视图,揭示问题根源,预测潜在中断。作为企业,从数据中获得可操作的洞察需要整体视角。这就是业务可观测性。
什么是业务可观测性?
业务可观测性是对业务流程、数据流和系统性能的持续监控与分析,以获取洞察、优化运营并理解业务影响。不同于传统监控,业务可观测性提供组织生态系统的全景视图,确保决策者获得实时数据和超越运营影响的可操作洞察。
在业务层面,这意味着优化特定的业务相关数据(通常与普通运营数据的处理和存储不同),以提升业绩。
随着组织日益数据驱动,数据管理已非事后考虑。企业必须理解系统间的互动,在异常影响客户前发现它们。这要求主动监控,挖掘改进机会,保护收入。
业务可观测性通过分析来自应用、服务器、数据库和微服务的运营数据,以及关联的客户和业务数据来应对这些挑战。遥测数据提供环境的全面视图,帮助团队识别根因、依赖关系和性能瓶颈及业务影响。借助 AI 驱动的分析,组织可将未知的未知转化为机会。
业务可观测性还允许组织纳入其常规运营范围之外的数据。出于安全考虑,客户数据和财务数据通常与运营数据分开存储。业务可观测性将业务数据层叠其中,并结合组织上下文,让你看到业务的全貌,并据此推动决策。
在各行各业,业务可观测性拥有广泛的应用场景,助你自信地做出数据驱动的决策。
客户体验优化
通过检测客户的摩擦点,业务可观测性为团队提供了提升客户体验所需的可见性,进一步实现个性化,并最终减少客户流失。
例如,富国银行采用业务可观测性解决方案,快速识别其分布式微服务环境中的问题。它需要对所有金融交易进行端到端的可见性,并能近实时报告风险。通过实现实时交易追踪,富国银行提升了问题检测和解决的速度,最终加快了面向客户和员工的数字解决方案交付。
收入优化与业务绩效监控
从评估营销效果对转化率的影响,到发现账单和定价中的异常,再到监控 POS 系统,获取实时收入数据是业务可观测性解决方案的关键优势之一。
受众数据是可用于优化收入的一类业务数据。例如,DISH Media 实施了业务可观测性,以整合受众信息和洞察,吸引并留住广告商。它通过定向广告支持并提升广告收入,同时通过消除人工分析提高了开发者的工作效率。
IT 和基础设施性能管理
现代企业依赖无缝性能。但数字蔓延、遥测数据噪声和复杂架构会严重阻碍快速解决问题。有了业务可观测性实践,企业可以在系统变慢影响用户前检测并解决问题,跟踪分布式架构中的交互以防止宕机,并加强安全与合规监控。
例如,Achmea 使用 Elastic Observability 主动修复系统性能问题。业务可观测性分析其技术基础设施,为其 1200 万客户和 1.6 万员工主动解决问题。通过保障多个创新(且昂贵)工具的稳定运行,业务可观测性维持最佳性能,从而最大化其数字投资回报。
供应链与运营效率
供应链越复杂,保障运营效率就越具挑战性。业务可观测性为企业提供端到端的可视化能力,识别低效环节并预测库存需求。
例如,Albert Heijn Technology(AH Tech)实施了业务可观测性,以监控其整个应用系统,并为超过 2000 家门店和数千个销售点主动解决问题。为了无缝整合来自供应链配送中心、门店和运营中心的数据,AH Tech 需要一个具有完整可视化能力的可扩展解决方案。数据的透明共享使组织的不同部门能够大规模协作。
安全性与合规性
在复杂的数字架构中,安全与合规尤为具有挑战性。组织必须持续监控其系统、交易和权限,以发现异常和潜在的欺诈或泄露行为。通过识别业务流程中的漏洞,业务可观测性帮助团队预防风险并确保符合法规要求。尤其是在处理敏感客户数据和个人身份信息(PII)时,这一点至关重要。
员工生产力与人力优化
对运营进行高级分析有助于企业识别流程中的低效问题,以及员工参与度和满意度的趋势。业务可观测性为团队提供提升生产力和工作条件所需的洞察,最终推动创新。
总体而言,业务可观测性使企业从被动响应转向主动管理。这提升了运营效率,优化了系统性能,并在各行业中改善了客户体验。
业务可观测性的核心组件
业务可观测性建立在四个关键流程之上:数据收集、监控、分析和可视化。它们协同作用,提供有价值的洞察。
1. 数据收集
数据是所有业务问题和解决方案的核心,也是任何可观测性实践的生命线。数据来自多个来源,包括应用日志、客户交易、网站交互和机器传感器。
遥测数据是业务可观测性数据收集的核心,因此遥测信号 —— 指标(metrics)、日志(logs)和链路追踪(traces)—— 被称为可观测性的三大支柱:
-
指标(Metrics):可量化的测量值,帮助你追踪系统性能,了解系统中发生了什么。来源包括主机、应用、网络、服务器、容器和外部依赖项,常见指标包括 CPU、磁盘、内存使用率,响应时间,错误率,吞吐量等。
-
日志(Logs):详细记录事件、交易和错误,提供故障排查和根因分析所需的上下文,帮助你理解系统中为何发生某些情况。
-
链路追踪(Traces):追踪用户请求在多个服务间的流转,帮助企业识别性能瓶颈,了解问题发生的位置。
-
业务数据(Business Data):来自数据仓库、数据库、CRM、ERP、营销自动化、财务系统、POS 终端、客户支持工单和产品分析等,提供业务运行、客户交互等背景信息,帮助你理解技术问题对业务的影响。
深入了解各种类型、黄金信号和理解 observability 指标的最佳实践。
2. 监控
数据收集后,业务可观测性依赖实时监控工具,持续追踪业务流程、IT 系统和性能指标,以便在问题升级前及时发现。自动化监控和精心设计的告警机制是解决 IT 分析师频繁切换系统问题(“转椅式操作”)的关键。
3. 分析
机器学习和人工智能增强了数据分析能力,提取模式、识别趋势和异常。这些 AI 驱动的工具帮助企业预测并规避潜在风险,从数据中发现可执行的洞察。
4. 可视化
业务可观测性为团队提供单一视图窗口(single pane of glass),统一查看系统和运营状况。通过仪表盘和报告,将洞察以易于理解的方式呈现,使团队能够快速做出数据驱动的决策。
业务可观测性的挑战
虽然业务可观测性正迅速成为现代商业实践中不可或缺的一部分,但其实施和维护可能具有一定难度。主要挑战包括:
1. 数据过载
收集大量数据可能会使提取有意义的洞察变得困难。因此,优先关注关键业务指标并使用 AI 驱动的分析来过滤不必要的数据至关重要。识别哪些业务指标至关重要,归根结底取决于你希望通过业务可观测性解决的具体用例。
解决方案:自动化数据处理。手动处理系统生成的数据效率极低,甚至不可能。AI 和机器学习可以帮助减轻负担并简化数据处理流程。
2. 集成复杂性
一些公司仍处于数字化转型过程中,另一些公司则面临混合云系统的挑战。数据信号多样、格式不同且数据量巨大,使得集成成为一个重大挑战。
解决方案:使用基于云的开放标准可观测性工具。虽然即插即用的解决方案可以快速上手,但它们限制了灵活性。开放标准的可观测性解决方案确保你拥有自己的数据,并可以根据你的特定需求进行定制。
3. 资源限制
实施可观测性需要专业人才、基础设施和预算。短期成本可能难以让决策者接受。从小处着手,关注高影响力区域并逐步扩大,是成功实施并实现长期节约的关键。
解决方案:优先考虑关键业务流程。从小处着手。通过先监控关键业务功能,再逐步扩大覆盖范围,你可以在实践中不断优化和学习,从而为团队在扩大规模时打下成功的基础。
如何实施业务可观测性
业务可观测性是优化流程和生产力、降低成本的关键。那么,如何实施它?
1. 明确目标和 KPI
确定具体的业务目标,并根据这些目标制定清晰的执行计划。你之所以将业务数据集成进可观测性解决方案,是有目的的。你如何定义成功?
定义关键绩效指标(KPI),例如客户留存率、响应时间或每用户收入。这些目标应当具体可衡量,同时体现出更具前瞻性的业务方法。例如,你应该致力于预防短缺或系统故障,而不仅仅是在它们发生后再应对。
2. 建立数据管道
你得到的答案质量取决于你收集的数据质量,而你收集的数据必须与你的目标相关。确定你希望采集哪类业务数据。例如,如果你是一家希望增加客流量的实体店,那么地理位置数据可能比社交媒体数据更有价值。
通过建立高效的数据管道,从正确的来源收集、处理并分析数据,你就能明确数据来自哪里。业务数据通常与运营数据在处理方式和上下文上有所不同,因此这一步可能还包括数据统一,以标准化数据操作。
3. 集成监控工具
采用能够全面洞察业务流程、IT 系统和客户互动的监控平台。集成既能处理运营数据也能处理业务数据的监控工具,从而实现业务可观测性。
4. 持续改进和迭代
可观测性是一个持续过程。通过根据数据中收集到的洞察和反馈不断优化流程和策略,你可以根据需要灵活扩展或缩减。
最终,一个成功的业务可观测性计划依赖于 IT、运营和业务团队的协同一致,确保统一的实施方法。理解数据中的依赖关系,并据此实施变更,需要组织内部各业务垂直部门的协作。业务可观测性并不止于技术本身 —— 它始于一种公司思维方式。
如何确保数据质量
保持数据可观测性依赖于数据管理流程的持续改进和适应能力。以下是一些最佳实践:
- 定期更新监控系统。业务流程和技术不断变化。确保你的监控工具定期更新,以跟上变化,并持续为可观测性实践提供实时、相关的数据。
- 确保数据质量。数据质量差会导致错误的洞察。可以考虑实施数据验证技术和自动异常检测。
- 定期进行审计。虽然自动化是处理海量数据集的关键,但定期审计有助于发现漏洞并提升数据可靠性。
- 适应变化的业务需求。当市场趋势和客户行为发生变化时,你的业务需求也会随之变化。你的可观测性策略应当能够适应这些变化。
业务可观测性的最佳实践
业务可观测性是一项复杂的工作。企业可以利用可观测性带来的洞察推动组织决策并优化绩效。
例如,BITMARCK 实施了业务可观测性,以提供卓越的客户体验、简化数据隐私法规的合规流程,并提升生产力,同时为人工智能等创新应用的实施打开大门。这支持了其构建更好客户体验软件的目标,并应对现代数字环境的挑战。
像 BITMARCK 一样,希望实现规模扩展的企业可以通过实施业务可观测性来简化流程并释放资源用于创新,这将对运营甚至收入带来显著积极影响。
以下最佳实践可以帮助你实现这一目标:
- 明确设定目标。与任何技术转型一样,清晰定义的目标必须与业务成果一致,才能确保你的可观测性工作真正创造价值。
- 通过自动化优化流程。面对海量和高速的数据,可通过自动化来应对。可以考虑使用由 AI 驱动的监控工具来自动处理数据、检测异常、进行根本原因分析等。
- 优先考虑安全性和隐私保护。安全性应当成为业务可观测性实施计划的核心。从一开始就将其纳入,可以保护敏感信息、减少漏洞,并确保符合数据治理政策。
用 Elasticsearch 实现业务可观测性
Elastic Observability 是一个开放且可扩展的全栈解决方案,旨在提供对整个数字生态系统的实时可见性。
借助 Elastic,打破数据孤岛,集中日志记录,利用 AI 驱动的分析在问题影响运营前检测异常。Elastic 的灵活性让企业可以按自己的节奏扩展,并根据目标定制解决方案。
统一你的数据,用一体化解决方案加快创新速度。
额外的业务可观测性资源