spark RDD转换算子 sample


sample

函数签名:

  def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T]

函数说明:
  根据指定的规则从数据集中抽取数据,应用于发现倾斜数据解决数据倾斜预估内存;根据第一个参数可划分为抽取数据不放回抽取数据放回2种规则

1.抽取数据不放回(伯努利算法)

  伯努利算法:又叫0、1分布。例如扔硬币,要么正面,要么反面。
具体实现:根据种子和随机算法算出一个数和第二个参数设置几率比较,小于第二个参数要,大于不要

第一个参数:抽取的数据是否放回,false:不放回
第二个参数:每条数据抽取的几率,范围在[0,1]之间,0:全不取;1:全取;
第三个参数:随机数种子(随机数不随机:随机算法)

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("CZ")
    val sc = new SparkContext(sparkConf)
    val dataRDD = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 1)
    val newRDD = dataRDD.sample(false, 0.1,1)
    newRDD.collect().foreach(println)
    sc.stop()
  }

运行第一次:
在这里插入图片描述

运行第二次:
在这里插入图片描述

注:
  随机数是通过复杂的数学算法得到的,随机种子(Random Seed)就是这些随机数的初始值。一般计算机里面产生的随机数都是伪随机数。 伪随机数,也是就一个一直不变的数。

2.抽取数据放回(泊松算法)

第一个参数:抽取的数据是否放回,true:放回;
第二个参数:重复数据的几率,范围大于等于0.表示每一个元素被期望抽取到的次数
第三个参数:随机数种子


Spark(Scala编程语言创建的大规模数据处理框架)的核心数据结构是弹性分布式数据集(RDD,Resilient Distributed Dataset)。在Spark中,RDD算子(Operators)是一系列可以应用于RDD的函数,它们负责执行任务并生成新的RDD,实现了数据的高效并行处理。以下是几种主要类型的RDD算子: 1. **基础算子**: - `map`: 应用一个函数到每个元素上,返回一个新的RDD。 - `filter`: 选择满足特定条件的元素,返回一个新的RDD。 - `flatMap`: 对每个元素应用一个函数,然后展开结果,相当于`map`之后再`flatten`。 - `reduceByKey` 和 `aggregateByKey`: 分组数据并进行累积操作,如求和、平均等。 2. **转换算子**: - `groupByKey` 和 `cogroup`: 将数据分组并返回键及其对应的列表。 - `join` 和 `leftOuterJoin`, `rightOuterJoin`, `fullOuterJoin`: 按照键进行连接,可以选择不同类型的数据匹配。 - `union`, `subtract`, `intersection`: 结合、排除和取交两个RDD。 3. **动作算子**: - `count`: 计算RDD中元素的数量。 - `collect` 和 `take`: 将整个RDD收集到内存,用于查看数据。 - `saveAsTextFile` 或 `write` (如Parquet, JSON): 将结果保存到磁盘或特定格式的文件中。 4. **分区算子**: - `repartition`: 改变RDD的分区数,提高后续操作的性能。 - `coalesce`: 合并部分分区,减少网络通信。 5. **特殊算子**: - `sortByKey` 和 `top/k`: 根据键值排序,或返回前k个元素。 - `sample`: 随机抽样数据。 这些算子都是无状态的,即不会记住之前的操作,适合大规模并行处理。每个算子都在分布式环境中执行,充分利用集群资源。Spark的API设计鼓励用户采用懒惰计算(lazy evaluation),只有当结果被需要时才会真正触发计算,这种延迟执行有助于优化性能和资源利用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

但行益事莫问前程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值