Elastic：什么是 MLOps？

原创已于 2025-06-16 15:53:56 修改 · 674 阅读

13 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#elasticsearch #大数据 #搜索引擎 #全文检索 #机器学习 #人工智能 #devops

于 2025-06-16 15:51:54 首次发布

Elastic 同时被 2 个专栏收录

1942 篇文章

订阅专栏

Elasticsearch

1314 篇文章

订阅专栏

MLOps 定义

机器学习运维（Machine learning operations - MLOps）是一套流程，旨在简化机器学习模型和工作流的开发、部署及持续维护。作为人工智能（AI）的一个子领域，MLOps 处于机器学习（ML）、开发运维（development operations - DevOps）和数据工程的交汇点。它将端到端的机器学习模型开发与系统部署和运维相结合。这个实践是数据科学家、DevOps 工程师和 IT 团队的协作，确保机器学习系统可靠、安全且可扩展。

机器学习系统现在已广泛应用于大多数技术领域，支持预测分析、自动决策，并通过从可观测性到网络安全及定制化的各个方面，推动各行业的生产力和创新。部署机器学习模型需要强大的运维框架，这正是 MLOps 的作用所在。

什么是机器学习？

机器学习是 AI 的一个分支，依赖数据和算法，使计算机能在无需显式编程的情况下学习和改进，类似于人类学习。机器学习算法处理大量数据，发现模式，从而训练模型在查询时做出准确预测或决策。

机器学习算法应用广泛，如推荐引擎、告警自动化、欺诈检测、自然语言处理等。随着数据量不断增长，机器学习系统帮助各类企业自动化任务、管理数据、实现增长和创新。

什么是 MLOps 框架？

MLOps 框架支持组织内机器学习系统的开发和部署。MLOps 生命周期从数据准备开始，数据输入模型进行训练和验证，随后部署、监控和再训练。它遵循 DevOps 的持续集成和持续部署（CI/CD）、自动化测试、版本控制、模型监控和数据治理原则，目标是提升机器学习模型生命周期的效率、可扩展性和安全性。

MLOps 在软件开发中的作用

在软件开发中，MLOps 统一了机器学习和软件应用的发布周期。它在将机器学习模型集成到生产系统中发挥关键作用。传统软件开发关注代码，而机器学习模型还需管理数据、算法和计算资源。MLOps 通过结构化的方法实现模型部署、监控和迭代，确保模型能与传统软件一起稳定运行，减少停机时间。

与可观察性、网络安全和定制化的交集

MLOps 在两个方面与可观察性、网络安全和定制化交叉。可观察性、网络安全和定制化依赖机器学习能力来完成各种任务，包括警报自动化、预测分析、规划和优化。反过来，MLOps 依赖可观察性、网络安全和定制化来为组织发挥机器学习模型的全部优势。

可观察性：应用于 MLOps，可观察性实践帮助检测诸如数据漂移或模型退化等问题，这些问题会影响预测的准确性和可靠性。
网络安全：像任何数字生态系统的方面一样，MLOps 流程可能受到各种威胁的攻击。在 MLOps 生命周期中实施网络安全实践意味着保护数据、验证数据完整性，并实施强有力的访问控制来保护模型。
定制化：在 MLOps 中，定制化涉及从数据选择和预处理到模型选择及部署策略，调整 ML 流程以满足特定业务问题或行业法规。通过将定制化集成到 MLOps 工作流程中，组织确保其机器学习解决方案不仅满足需求，还符合行业标准和最佳实践。

理解可观察性、网络安全、定制化与 MLOps 的交集，最终带来更好的结果：模型准确性、安全性和可靠性。

MLOps 组件

MLOps 生命周期包括多个组件，促进机器学习模型的成功迭代和部署。这些组件包括持续集成、数据准备、特征工程、模型训练与评估、部署、监控和治理。

持续集成
持续集成（CI）是核心的 DevOps 实践，涉及自动化代码变更的集成并合并到源码中。在机器学习项目中，持续集成还包括对数据和模型变更的自动集成。CI 确保机器学习模型始终可部署且可靠运行。

数据准备与特征工程
第一个关键组件是数据准备，涉及清洗、转换和组织原始数据，使其适合机器学习模型的目标。数据准备还包括聚合和重复清理等过程。
特征工程是数据准备的延伸，将原始数据转换成用于监督式机器学习的特征。特征是帮助模型建立数据点之间关系并最终生成预测的新变量。特征工程直接影响模型的准确性。

模型训练、调优与评估
模型训练是将数据输入算法，使算法映射数据中的关系或模式，最终生成预测。训练可分为监督式、无监督式和半监督式。监督式需要带标签的数据集，无监督式不需要，半监督式则结合带标签和不带标签的数据集训练算法。
模型调优是通过调整模型超参数来提升性能。超参数是控制模型学习过程的“顶层”或框架值。
模型评估是用新数据测试模型并验证其适用性，确保模型在部署前按预期工作。

模型部署
模型训练和验证完成后，部署到生产环境，实时处理新数据并生成预测。部署过程包括持续监控，确保模型在负载下表现正常。

持续监控与可观察性
可观察性实践通过预测准确率、延迟和系统健康等指标监控模型性能。可观察性还帮助从更广泛的视角了解模型在生态系统中的整合情况，跟踪资源使用和技术债务，进而帮助工程师调整模型以提升整体系统性能。

以数据为中心的管理与数据漂移
以数据为中心的管理是重要的 MLOps 组件，关注机器学习项目中数据的质量和一致性。输入数据的统计属性变化可能导致模型性能下降，这称为数据漂移。监控数据漂移不仅保证模型性能，还保证数据完整性。

实验
一个业务问题可能有多个机器学习解决方案。理解哪个模型适合特定环境中的业务问题需要通过实验验证。像 DevOps 一样，MLOps 的核心原则是迭代和持续改进。

治理
有数据就有治理。所有组织都受政策和程序约束，确保符合监管要求和伦理标准。MLOps 流程监控包括跟踪实验和管理模型版本，确保机器学习模型符合监管要求。