Spark 3.0 - 4.Pipeline 管道的工作流程

最新推荐文章于 2025-04-18 20:28:27 发布

BIT_666

最新推荐文章于 2025-04-18 20:28:27 发布

阅读量811

点赞数 3

分类专栏： Spark 3.0 x 机器学习 Scala 文章标签： spark3.0 ML pipeline

本文链接：https://blog.csdn.net/BIT_666/article/details/127915175

版权

Spark 3.0 x 机器学习同时被 2 个专栏收录

18 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Scala

150 篇文章

订阅专栏

本文详细介绍了Spark 3.0中的Pipeline工作流程，包括基本组件如DataFrame、Transformer、Estimator，以及Pipeline的构建与配置。通过Pipeline将数据处理、特征提取和模型训练串联起来，演示了训练Pipeline（Estimator）和预测Pipeline（Transformer）的创建过程，强调了ParamMap在参数管理中的作用。最后，讨论了Pipeline的优点及其在实际应用中的选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.引言

二.基本组件

三.Pipeline 基本流程

1.训练 Pipeline - Estimator

2.预测 Pipeline - Transformer

四.Pipeline 分解与构造

1.DataFrame

2.Transformer1 - Tokenizer

3.Transformer2 - HashingTF

4.Estimator - LR

5.Pipeline With ParamMap - Estimator

5.1.配置 Pipeline

5.2.配置 ParamMap

5.3 Pipeline.fit

6.Pipeline With ParamMap - Transformer

6.1 模型存储与加载

6.2 Model transformer

7.完整代码

五.总结

一.引言

Spark ML 使用管道 Pipeline 就像 Python Sklearn 一样，可以把多个步骤例如特征处理 -> 特征提取 -> 模型训练等联结起来，让数据在 Pipeline 中流动。有了 Pipeline 之后，ML 更适合创建包含从数据清洗到特征工程再到模型训练等一系列流程中，无论什么模型都提供了统一的算法操作接口即 fit()，下面让我们看下管道的基本组件与流程示例。