前言
提高reducer端并行度操作起来并不难,这里把它当做一个单独的方案,原因是:现在的spark程序,我们一般刚开始主要考虑的业务,对于代码写的是否忽略的性能的问题很多时候可能并不是项目一开始要考虑的事情。只有当代码经过测试的时候,可能才发现由于数据倾斜造成某个task运行缓慢,此时,我们不会一上来就做一些比如给key加随机前缀和扩容处理,而往往第一步想到的就是提高Reducer端并行度。
适用场景
如果我们必须要对数据倾斜迎难而上,那么建议优先使用这种方案,因为这是处理数据倾斜最简单的一种方案。
实现思路
在对RDD执行shuffle算子时,给shuffle算子传入一个参数,比如reduceByKey(1000),该参数就设置了这个shuffle算子执行时shuffle read task的数量。对于Spark SQL中的shuffle类语句,比如group by、join等,需要设置一个参数,即spark.sql.shuffle.partitions,该参数代表了shuffle read