Spark源码阅读03-Spark存储原理之共享变量(1)

最新推荐文章于 2025-06-04 17:26:15 发布

Y1567409

最新推荐文章于 2025-06-04 17:26:15 发布

阅读量1k

点赞数 26

分类专栏：程序员文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/Y1567409/article/details/138481849

版权

程序员专栏收录该内容

742 篇文章

订阅专栏

本文介绍了Scala中Spark框架的广播变量和累加器的概念、用途和使用方法，包括广播变量的分发机制和累加器的创建、操作以及自定义类型。作者还强调了累加器的调度特性以及在分布式计算中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scala> broadcastVar.value

res0: Array[Int] = Array(1,2,3)

当广播变量创建后，在集群中所有函数将以变量v代表该广播变量，并且该变量v 一次性分发到各节点上。另外，为了确保所有的节点获得相同的变量，对象v广播后只读不能够被修改。

累加器

累加器是Spark中仅有通过关联操作进行累加的变量，因此能够有效地支持并行计算，它们能够用于计数（如MapReduce)和求和。 Spark原生支持数值类型的累加器，不过开发人员能够定义新的类型。如果在创建累加器时指定了名称，可以通过Spark的UI监控界面中进行查看，这种方式能够帮助理解作业所构成的调度阶段执行过程。

在这里插入图片描述

通过调用SparkContext.accumulator(v)方法初始化累加器变量V，在集群中的任务能够使用加法或者"+="操作符进行累加操作（在Scala和Python中）。然而，它们不能在应用程序中读取这些值，只能由Driver程序通过读方法获取这些累加器的值。

下面代码演示如何把一个数组的元素追加到累加器中：

scala> val accum = sc.accumulator (0, “My Accumulator”)

accum: spark.Accumulator[Int] = 0

scala> Sc.parallelize(Array(l, 2, 3, 4)).foreach(x => accum += x)

…

10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s

scala> accum.value

res2: Int = 10

尽管上面的例子使用Spark原生所支持的累加器Int类型，但是开及人员能够通过继承AccumulatorParam类来创建自定义的累加类型。 AccumulatorParam接口提供了两个方法： zero 方法为自定义类型设置 ”0值 " 和addInPlace方法将两个变量进行求和。例如，下面将对Vector 类所提供的向量vector进行求和，代码如下：

object VectorAccumulatorParam extends AccumulatorParam[MyVector, MyVector] {

def zsro(initialValue: Vector): Vector = {

Vector.zeros(initialValue.size)

}

def addInPlace(v1: Vector, v2: Vector): Vector = {

v1 += v2

}

…

}

// 可以创建向量的累加器变量

val vecAccum = sc.accumulator(new Vetor(…))(VectorAccumulatorParam)

在Scala中，尽管结果的类型和累加元素的数据类型可能存在不一致的情况，Spark提供更通用的接口来累加数据（例如，通过创建一个列表来容纳累加的元素），另外SparkContext. accumulableCollection提供了通用的方法来累加Scala集合类型。