在Dstream里面有个操作函数是reduceByKey(),大意就是根据该Dstream里面
的每个rdd做一个reduceByKey()的操作, 然后返回一个由新的RDD组成的新的Dstream。
我的疑问是:
1、新的(结果)Dstream里面的不同rdd里,key会重复么?
2、Dstream的内容就是最终的结果呢
还是我应该对这个Dstream里面的Rdd再做一个汇总?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

关于Dstream里reduceByKey()的一个疑问
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
0条回答 默认 最新
报告相同问题?
提交
- 2024-10-04 03:05AI天才研究院的博客 Transformation:转换操作,用于对 DStream 进行处理,如 map、filter、reduceByKey 等。 Output Operations:输出操作,用于将处理后的数据写入外部系统,如 Kafka、HDFS、JDBC 等。 Accumulators:累加器,用于在...
- 2024-07-01 02:25墨尔本、晴的博客 时间驱动:来一个事件处理一个事件;流处理的流水线;流&批数据分析具体定位是:Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存...
- 书生♡的博客 RDD的概念,RDD的特性,怎么创建一个RDD,RDD的算子等等!!!RDD是一种弹性分布式数据集合是spark中最基本的数据类型,它提供了容错能力和并行处理的能力。RDD(Resilient Distributed Dataset)弹性分布式数据集合...
- 2016-05-20 12:36听风的蜗牛的博客 7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析 ...上篇博客讨论了Spark Streaming 程序动态生成Job的过程,并留下一个疑问: JobScheduler将动态生成的Job提交,然后调用了Job对象的run方法,最后run方法的
- 2022-06-11 00:21道教儒佛电磁波的博客 一句一句的信息,就是一个一个的数据,它们构成的序列就是一个数据流;而一大段信息,是一组数据的集合,对应就是批量数据(数据集)。 不论传输处理的方式是怎样的,数据的生成,一般都是流式的。 在 IT 应用场景中...
- 2019-10-08 16:15黄瓜炖啤酒鸭的博客 俗话说,金九银十,为了帮助广大同行面试准备,或者帮助想要了解Flink的同学带着问题思考去学习Flink,我先做了一个初步的面试题汇总,这些面试题有些是大家问的比较多的,有些是自己遇到的,有些是在群里面大家问...
- 2021-08-06 16:18joo haa的博客 使用Python脚本随机生成日志(获取日志)使用脚本方式将日志自动上传至HDFSSpark Streaming 自动...一个典型的方案是 Nginx 日志文件 + Flume + Kafka + Spark Streaming,如下所述:接收服务器用 Nginx ,根据负载...
- 2020-06-04 22:23故明所以的博客 一、DStream 和 RDD 我们知道Spark Streaming 计算还是基于Spark Core的,Spark Core 的核心又是RDD。所以Spark Streaming 肯定也要和RDD扯上关系。然而Spark Streaming 并没有直接让用户使用RDD而是自己抽象了一套...
- 2024-06-17 15:25会java的怪蜀黍的博客 // Get the lines, split them into words, count the words and print val lines = messages.map(_.value) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_...
- 2021-01-10 12:12吃鱼的羊的博客 ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _) wordCounts.print() // 启动流 ssc.start() ssc.awaitTermination() 通过以上代码我们可以 get 到: 设置批处理时间 创建数据流 编写transform ...
- 2016-05-05 09:53chumei0849的博客 Streaming因为多了感知数据的逻辑,因此更像是Spark上的一个应用程序。 下面实战演示,实现从源源不断的输入流中过滤掉黑名单中的数据。 ? 1 2 3 4 5 ...
- 2022-06-01 16:58Keven He的博客 ")).map(x => (x, 1)).reduceByKey(_ + _) /*保存数据到 Redis*/ pairs.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => var jedis: Jedis = null try { jedis = JedisPoolUtil.getConnection ...
- 2022-07-14 09:55Cynicism_Kevin的博客 Seconds(5)) /*创建文本输入流,并进行词频统计*/ val lines = ssc.socketTextStream("hadoop001", 9999) lines.flatMap(_.split(" ")).map(x => (x, 1)).reduceByKey(_ + _).print() /*启动服务*/ ssc.start() /*...
- 2019-04-12 17:04KLordy的博客 首先,对于window函数的作用可以参考官网介绍,不过官网只是对使用进行了简单的介绍,而对于内部如何实现我们今天想来进行一探究竟!因为只是个人也只是简单的用过,但是依据之前看Spark Streaming实现相关的...
- 2022-10-12 15:01王亭_666的博客 // Get the lines, split them into words, count the words and print val lines = messages.map(_.value) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_...
- 2022-01-24 19:07克念的博客 .level == "ERROR") .map(log => log.time.truncatedTo(ChronoUnit.MINUTES) -> 1) .reduceByKey(_ + _) .collect() //这里需要特别注意,数据全部通过collect() 方法回到了Driver进程中,不在各个分区 // 在Driver...
- 2021-10-29 15:06四月天03的博客 这个问题是一个非常宏观的问题,因为两个框架的不同点非常之多。但是在面试时有非常重要的一点一定要回答出来: Flink 是标准的实时处理引擎,基于事件驱动。 而 Spark Streaming 是微批( Micro-Batch )的模型。...
- 2022-03-13 16:56杨林伟的博客 文章目录01 引言02 Flink VS Spark2.1 运行角色2.2 生态2.3 运行模型2.4 编程模型对比2.5 任务调度原理2.6 时间机制对比2.7 kafka 动态分区检测...容错机制及处理语义2.8.1 Spark Streaming 保证仅一次处理2.8.2 Flink 与...
- 没有解决我的问题, 去提问