Spark Shuffle原理浅解析

数据大包哥

于 2025-03-07 23:54:04 发布

阅读量1.2k

点赞数 26

分类专栏： # Spark 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aaron_PHPer/article/details/146108322

版权

一、Shuffle的核心定义与作用

Shuffle 是Spark中跨节点数据重分区的过程，通常由宽依赖操作（如groupByKey、join）触发。其核心目的是将相同Key的数据分发到同一个节点，以便进行聚合或连接操作。

重要性：
1. 数据分区：确保后续计算（如Reduce阶段）能按Key正确处理数据。
2. 性能瓶颈：涉及大量磁盘I/O、网络传输及序列化，是Spark作业优化的关键点。
3. Stage划分依据：Shuffle操作将DAG切分为多个Stage，上游为Map阶段，下游为Reduce阶段。

二、Shuffle的核心流程

1. Shuffle Write（Map端处理）

分区与排序：
Map任务根据Key的哈希值或范围将数据划分为多个分区，每个分区对应下游的一个Reduce任务。数据在内存中排序后写入本地磁盘。
文件生成：
- Hash Shuffle：每个Map任务为每个Reduce任务生成独立文件，导致文件数爆炸࿰

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。