Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)

本文介绍了在 Spark SQL 中如何使用 Coalesce 和 Repartition 暗示(Hint)来调整并行度,以优化任务执行和输出文件数量。在 Spark 2.4 及以上版本,可以直接在 SQL 查询中通过 Hint 设置并行度,改变物理计划,提高程序效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果你使用 Spark RDD 或者 DataFrame 编写程序,我们可以通过 coalesce或 repartition 来修改程序的并行度:

val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)

val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)

 

val df = spark.read.json("/user/iteblog/json").repartition(4).map(xxxx)

val df = spark.read.json("/user/iteblog/json").coalesce(4).map(xxxx)

通过 coalesce 或 repartition 函数我们一方面可以减少 Task 数据从未达到减少作业输出文件的数量;同时我们也可以加大并行度从而提高程序的运行效率。

我们现在越来越多的人使用 Spark SQL 来编写程序,可是在 Spark 2.4 之前,我们是不能直接在 SQL 里面使用 coalesce 或 repartition的。值得高兴的是,国内的开发者为 Spark SQL 开发了一个功能,使得我们在 Spark SQL 里面也能用这两个函数,详见 SPARK-24940。这个功能在 Spark 2.4 已经发布了,这样我们可以通过 COALESCE 或 REPARTITION 关键字暗示来设置程序的并行度。使用如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值