前言
spark 结构化流式编程指南---------------------编程模型
结构化流种的关键思想是将实时数据流看作不断追加的表,非常类似于批处理模型。
一、基本概念
将输入数据流看作为“输入表”,每一个正在以流的形式到来的数据项像一个新行被追加再输入表上。
在input上查询时将会产生结果表。新行追加到输入表时,最终会更新结果表,每当更新结果时,更新后的结果行写入外部接收器。
Output
被定义成向外部数据输入的。
Complete mode
将数据完全写入外部存储Append Mode
向外部存储追加更改,适用于现有行不会更改的Update Mode
只有当最后一次触发,在结果表中更新的行才会被写入外部存储,如果查询不包含聚合,则等同于追加模式
注意:结构化流没有具体化整个实体表。spark只负责在新数据到来时更新结果表。