关于Dstream里reduceByKey（）的一个疑问

在Dstream里面有个操作函数是reduceByKey（），大意就是根据该Dstream里面
的每个rdd做一个reduceByKey（）的操作，然后返回一个由新的RDD组成的新的Dstream。
我的疑问是：
1、新的（结果）Dstream里面的不同rdd里，key会重复么？
2、Dstream的内容就是最终的结果呢
还是我应该对这个Dstream里面的Rdd再做一个汇总？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

Spark Streaming 原理与代码实例讲解
2024-10-04 03:05

AI天才研究院的博客 Transformation：转换操作，用于对 DStream 进行处理，如 map、filter、reduceByKey 等。 Output Operations：输出操作，用于将处理后的数据写入外部系统，如 Kafka、HDFS、JDBC 等。 Accumulators：累加器，用于在...
[Flink]一、Flink1.13
2024-07-01 02:25

墨尔本、晴的博客时间驱动：来一个事件处理一个事件；流处理的流水线；流&批数据分析具体定位是：Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存...
【Spark计算引擎----第二篇（RDD）：一篇文章带你清楚什么是RDD？RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子】
2024-08-02 21:02

书生♡的博客 RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子等等！！！RDD是一种弹性分布式数据集合是spark中最基本的数据类型，它提供了容错能力和并行处理的能力。RDD（Resilient Distributed Dataset）弹性分布式数据集合...
7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析
2016-05-20 12:36

听风的蜗牛的博客 7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析 ...上篇博客讨论了Spark Streaming 程序动态生成Job的过程,并留下一个疑问: JobScheduler将动态生成的Job提交,然后调用了Job对象的run方法,最后run方法的
第一课大数据技术之Fink1.13的实战学习-部署使用和基础概念
2022-06-11 00:21

道教儒佛电磁波的博客一句一句的信息，就是一个一个的数据，它们构成的序列就是一个数据流；而一大段信息，是一组数据的集合，对应就是批量数据（数据集）。不论传输处理的方式是怎样的，数据的生成，一般都是流式的。在 IT 应用场景中...
Flink面试题整理,全是干货，自己整理的
2019-10-08 16:15

黄瓜炖啤酒鸭的博客俗话说，金九银十，为了帮助广大同行面试准备，或者帮助想要了解Flink的同学带着问题思考去学习Flink，我先做了一个初步的面试题汇总，这些面试题有些是大家问的比较多的，有些是自己遇到的，有些是在群里面大家问...
sparklinux服务器日志信息,一、Spark应用-(Web log)流式实时日志分析系统实现
2021-08-06 16:18

joo haa的博客使用Python脚本随机生成日志(获取日志)使用脚本方式将日志自动上传至HDFSSpark Streaming 自动...一个典型的方案是 Nginx 日志文件 + Flume + Kafka + Spark Streaming，如下所述：接收服务器用 Nginx ，根据负载...
Spark Streaming 数据清理机制
2020-06-04 22:23

故明所以的博客一、DStream 和 RDD 我们知道Spark Streaming 计算还是基于Spark Core的，Spark Core 的核心又是RDD。所以Spark Streaming 肯定也要和RDD扯上关系。然而Spark Streaming 并没有直接让用户使用RDD而是自己抽象了一套...
flink1.12.0学习笔记（七）-监控与优化
2024-06-17 15:25

会java的怪蜀黍的博客 // Get the lines, split them into words, count the words and print val lines = messages.map(_.value) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_...
干货 | Spark Streaming 和 Flink 详细对比
2021-01-10 12:12

吃鱼的羊的博客 ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _) wordCounts.print() // 启动流 ssc.start() ssc.awaitTermination() 通过以上代码我们可以 get 到：设置批处理时间创建数据流编写transform ...
spark版本定制一
2016-05-05 09:53

chumei0849的博客 Streaming因为多了感知数据的逻辑，因此更像是Spark上的一个应用程序。下面实战演示，实现从源源不断的输入流中过滤掉黑名单中的数据。 ? 1 2 3 4 5 ...
Spark Streaming与流处理
2022-06-01 16:58

Keven He的博客 ")).map(x => (x, 1)).reduceByKey(_ + _) /*保存数据到 Redis*/ pairs.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => var jedis: Jedis = null try { jedis = JedisPoolUtil.getConnection ...
Spark Streaming 基本操作
2022-07-14 09:55

Cynicism_Kevin的博客 Seconds(5)) /*创建文本输入流,并进行词频统计*/ val lines = ssc.socketTextStream("hadoop001", 9999) lines.flatMap(_.split(" ")).map(x => (x, 1)).reduceByKey(_ + _).print() /*启动服务*/ ssc.start() /*...
Spark Streaming window函数源码解析
2019-04-12 17:04

KLordy的博客首先，对于window函数的作用可以参考官网介绍，不过官网只是对使用进行了简单的介绍，而对于内部如何实现我们今天想来进行一探究竟！因为只是个人也只是简单的用过，但是依据之前看Spark Streaming实现相关的...
flink1.12.0学习笔记第7篇-监控与优化
2022-10-12 15:01

王亭_666的博客 // Get the lines, split them into words, count the words and print val lines = messages.map(_.value) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_...
SparkStreaming 的Exactly Once实现方式总结
2022-01-24 19:07

克念的博客 .level == "ERROR") .map(log => log.time.truncatedTo(ChronoUnit.MINUTES) -> 1) .reduceByKey(_ + _) .collect() //这里需要特别注意，数据全部通过collect() 方法回到了Driver进程中，不在各个分区 // 在Driver...
Spark Streaming 和 Flink 详细对比
2021-10-29 15:06

四月天03的博客这个问题是一个非常宏观的问题，因为两个框架的不同点非常之多。但是在面试时有非常重要的一点一定要回答出来： Flink 是标准的实时处理引擎，基于事件驱动。而 Spark Streaming 是微批（ Micro-Batch ）的模型。...
Flink教程（30）- Flink VS Spark
2022-03-13 16:56

杨林伟的博客文章目录01 引言02 Flink VS Spark2.1 运行角色2.2 生态2.3 运行模型2.4 编程模型对比2.5 任务调度原理2.6 时间机制对比2.7 kafka 动态分区检测...容错机制及处理语义2.8.1 Spark Streaming 保证仅一次处理2.8.2 Flink 与...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

关于Dstream里reduceByKey（）的一个疑问

0条回答默认最新

关于Dstream里reduceByKey（）的一个疑问

0条回答 默认 最新

0条回答默认最新