spark Core详解

最新推荐文章于 2025-04-09 18:30:58 发布

微小冷

最新推荐文章于 2025-04-09 18:30:58 发布

阅读量4.3k

点赞数 2

本文链接：https://blog.csdn.net/m0_37816922/article/details/121116468

版权

编程语言学习专栏收录该内容

26 篇文章

订阅专栏

文章目录

- - 算子分类
  - RDD依赖关系

Spark快速入门

算子分类

在spark中，将RDD的成员函数翻为算子(operator),我觉得叫操作也可以。根据算子返回值类型的不同，可主要分为转换(transformation)算子和动作(Action)算子，前者返回一个新的RDD，后者返回其他数据类型。

在下表中，如未作说明，则f表示函数，data表示另一个RDD，可选参数[num]表示并行任务个数；键值对格式为(key,value)；seed表示随机数种子。

转换算子	返回一个新的RDD
map(f)	返回的RDD由每一个输入元素经过f函数转换后组成
filter(f)	返回的RDD由经过f计算后返回值为true的输入元素组成
flatMap(f)	类似于map，但是一个输入可被映射为0或多个输出元素
mapPartitions(f)	类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(f)	类似于mapPartitions，但f带有分片的索引，因此在类型为T的RDD上运行时，func的函数类型必须是(Int, Interator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根据fraction指定的比例对数据进行采样，可以选择是否使用随机数进行替换
union(data)	源RDD和参数RDD的并集
intersection(data)	源RDD和参数RDD的交集
distinct([num]))	去重
groupByKey([num])	RDD须为键值对形式，将key相同等value合并到一个列表中
reduceByKey(func, [num])	RDD须为键值对形式，聚合f(key)相同的value
aggregateByKey(zero, seqOp, combOp, [num])	聚合相同的Key值，zero为每次分组之后每组的初值，seqOp表示聚合函数，combOp表示在reduce端等聚合逻辑。
sortByKey([ascending], [num])	RDD须为键值对形式，通过key进行排序
sortBy(f,[ascending], [num])	根据函数f进行排序
join(data,[num])	RDD须为键值对形式，将源和参数RDD等value通过key值组成一个对
cogroup(data, [num])	在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD
cartesian(data)	笛卡尔积
pipe(command, [envVars])	对rdd进行管道操作
coalesce(num)	减少分区数到num，可在过滤大量数据之后执行此操作
repartition(num)	RDD分区重新定为num

动作算子
reduce(func)	通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的
collect()	以数组形式返回数据集的所有元素
count()	返回元素个数
first()	返回第一个元素
take(n)	返回前n个元素组成的数组
takeSample(w, num, [seed])	选取num个元素，作为数组返回。
takeOrdered(n, [ordering])	返回自然顺序或者自定义顺序的前n个元素
saveAsTextFile(path)	将数据集的元素通过toString转为文本，然后以textfile的形式保存到支持的文件系统
saveAsSequenceFile(path)	保存为Hadoop sequencefile格式到指定目录，需为Hadoop支持的文件系统
saveAsObjectFile(path)	以Java序列化的方式保存到path
countByKey()	RDD须为键值对形，返回每个key对应相同元素等个数
foreach(f)	对每一个元素使用函数f更新
foreachPartition(f)	在每一个分区上，运行函数func

统计算子	含义
count	个数
mean	均值
sum	求和
max	最大值
min	最小值
variance	方差
sampleVariance	从采样中计算方差
stdev	标准差:衡量数据的离散程度
sampleStdev	采样的标准差
stats	查看统计结果