- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 数据开发ms总结
(2)方案上,有很大的区别,MR的shuffle是基于合并排序的思想,在数据进入reduce端之前,都会进行sort,为了方便后续的reduce端的全局排序,而Spark的shuffle是可选择的聚合,特别是1.2之后,需要通过调用特定的算子才会触发排序聚合的功能。(1)功能上,MR的shuffle和Spark的shuffle是没啥区别的,都是对Map端的数据进行分区,要么聚合排序,要么不聚合排序,然后Reduce端或者下一个调度阶段进行拉取数据,完成map端到reduce端的数据传输功能。
2024-10-24 15:36:15
683
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人