Flink流式计算实战：API、Window与Watermark深度解析

下载需积分: 0 | PDF格式 | 8.6MB | 更新于2024-07-01 | 98 浏览量 | 举报

"这篇长文深入讲解了大数据流式计算框架Apache Flink的实战应用，主要聚焦在Flink的API、窗口（Window）和水印（Watermark）机制上，同时还涉及到了状态管理和容错机制等内容。" 在大数据处理领域，Apache Flink是一个强大的流处理框架，它支持实时和批处理两种模式，且提供了高度灵活的编程接口。这篇实战教程的中篇主要涵盖了以下几个关键知识点： 1. **Flink API**： - **Environment**: 这是Flink程序的入口点，用于创建流处理执行环境，可以配置各种运行时参数。 - **Source**: 用于定义数据输入，比如通过Kafka连接器读取数据。 - **Transformation**: 包括各种转换操作，如Map、Filter、Join等，用于对数据流进行处理。 - **Flink数据类型**: Flink支持基本数据类型以及用户自定义的数据类型。 - **Sink**: 数据输出接口，将处理后的数据写入到目标系统，如HDFS、数据库或消息队列。 2. **Window和Watermark机制**： - **Window原理与分类**: 窗口是流处理中处理无限数据的关键概念，常见的有滑动窗口、会话窗口、 tumbling窗口等。 - **Window API**: 如如何定义和配置不同的窗口类型，以及如何指定窗口操作。 - **时间语义**: 包括事件时间和处理时间，理解这两者对于正确处理乱序事件至关重要。 - **Watermark**：水印用于处理时间窗口中的乱序事件，确保数据的最终一致性。 - **Watermark的传递和API**: 如何在Flink程序中使用watermark，以及其工作原理。 3. **Flink状态管理**： - **State分类**: 区分键控状态（KeyedState）和其他状态类型。 - **State存在形式**: 如状态的存储方式，包括ValueState、ListState等。 - **KeyedState详解**: 键控状态是Flink中处理有状态转换的关键，基于键进行分区。 - **Flink状态后端**: 如内存、 RocksDB等不同状态后端的使用和选择。 - **Flink容错机制**: 包括检查点和保存点，确保在故障时能恢复到一致状态。 4. **Flink容错机制**： - **检查点**: 定期保存程序的中间状态，用于故障恢复。 - **检查点实现原理和配置**：了解检查点的实现机制，并学习如何在代码中配置检查点。 - **保存点**: 类似于检查点，但可以在任何时间点生成，更灵活。这篇教程深入浅出地讲解了Flink的核心概念和实践应用，对于想要掌握Flink的开发者来说，是一份非常宝贵的参考资料。通过学习这些内容，读者不仅可以理解Flink的基本操作，还能深入了解流处理中的复杂概念，如窗口和水印处理，以及如何在实际项目中应对乱序数据。同时，状态管理和容错机制的讲解，也能帮助开发者确保系统的高可用性和数据一致性。

2021/11/22 下午11:27

万字长文详解大数据流式计算框架 Flink 实战（中篇）

https://gitbook.cn/books/5fc6f947ed1571053687d729/index.html

16/105

了序列化器、反序列化器以及比较器。

此外，Flink 还提供了类型提取系统，自动分析函数的输入类型和输出类型，以获得对应的序

列化器和反序列化器。在使用 lambda 函数或者泛型类型时，需显式指定类型信息。

Flink DataStream 里的元素类型支持 JAVA 和 Scala 中的所有基本类型，像 Int 、Long 、

Double、String 等。此外还支持 Tuple 元组类型、Java 简单对象(pojo)、scala 样例类以及一些

集合类型，比如 Java 的 ArrayList、HashMap、Enum 等。

Flink 的每个函数都提供了对应的 Rich 版本。富函数相比普通的函数可以获取 flink 运行时上下

文、生命周期方法。生命周期方法中通常可以做一些初始化及收尾操作，比如连接数据库、关

闭数据库连接。

Sink

sink，顾名思义，下沉，在 Flink 中意指数据输出、数据落地的意思。最简单的数据输出方式

就是打印到控制台，调用 datastream 的 print()方法即可，print 就是一种 sink 操作。对于不同

的 sink 方式，Flink 提供了各种内置的输出格式。

除了基本的输入输出数据源外，flink 目前还支持下列第三方组件作为数据源。

Apache Kafka (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/kafka.html) (source/sink)

Apache Cassandra (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/cassandra.html) (sink)

Amazon Kinesis Streams (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/kinesis.html) (source/sink)

Elasticsearch (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/elasticsearch.html) (sink)

Hadoop FileSystem (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/filesystem_sink.html) (sink)

RabbitMQ (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/rabbitmq.html) (source/sink)

Apache NiFi (https://ci.apache.org/projects/flink/flink-docs-release-

1.11/dev/connectors/nifi.html) (source/sink)

(/)

2021/11/22 下午11:27

万字长文详解大数据流式计算框架 Flink 实战（中篇）

https://gitbook.cn/books/5fc6f947ed1571053687d729/index.html

18/105

测试 socket 输出时，先在 linux 服务器上使用 nc -lk 9999 模拟 socket 服务器开启监听。

2）kafka kafka 和 flink 天生对流式数据友好，因此实际生产中经常搭配使用。比如 flink 从数

据源接收到数据处理完成后再发送一个消息到 kafka 中，任其消费。也有从 kafka 进、kafka

出的使用场景，即输入、输出源都是 kafka。比如对原始输出数据进行分流处理，并且处理完

成后发送到不同的消费者 topic 中去。下面介绍如何在 flink 中集成 kafka。

引入依赖

<groupId>org.apache.flink</groupId>

<artifactId>flink-connector-kafka-0.11_2.11</artifactId>

</dependency>

需求：实现 Flink 消费 kafka 消息队列的消息，转换处理后再次输出到 kafka 中。

public class SinkDemo {

public static void main(String[] args) throws Exception {

StreamExecutionEnvironment env = StreamExecutionEnvironment.get

//设置并行度为 1，输出结果全部写出到一个文件，否则开发环境会使用默认并行度分区

env.setParallelism(1);

//准备数据源

List<Tuple2<String, Integer>> list = new ArrayList<>();

list.add(new Tuple2<>("A", 100));

list.add(new Tuple2<>("B", 200));

list.add(new Tuple2<>("C", 300));

list.add(new Tuple2<>("D", 400));

DataStreamSource<Tuple2<String, Integer>> dataStreamSource = en

dataStreamSource.print();

//除了路径参数是必填外，还可以通过指定第二个参数来定义输出模式

dataStreamSource.writeAsText("d://sink-text.txt", FileSystem.Wr

//如果想要将输出结果全部写出到一个文件，可以单独设置算子的并行度为 1

dataStreamSource.writeAsCsv("d://sink-csv.txt", FileSystem.Writ

//自定义的输出格式，writeAsText/writeAsCsv 底层调用的都是该方法

dataStreamSource.writeUsingOutputFormat(new TextOutputFormat(ne

//以字符串的形式输出到 socket 服务器

dataStreamSource.map(t -> t.f0 + ":" + t.f1 + "\r\n").writeToSo

env.execute("sink demo");

}

(/)

剩余104页未读，继续阅读

学习呀三木

粉丝: 29

Flink流式计算实战：API、Window与Watermark深度解析

DeepSeek企业应该怎么玩？万字长文详解企业级部署方案.md

万字长文详解如何使用 Swift 提高代码质量.pdf

万字长文 详解企业级B端设计规范搭建思路（实战篇）.docx

万字长文详解企业数字化转型运营地图合集.docx

20210810-粤开证券-【粤开宏观】万字长文详解基础设施REITs：全球比较与中国实践.pdf

Python重点全解析：万字长文详解与新特性概览

万字长文，详解Python重点，系统梳理！.pdf

万字长文详解基础设施REITs：全球比较与中国实践（2021）（23页）.pdf

20210810-粤开证券-【粤开宏观】万字长文详解基础设施REITs：全球比较与中国实践.rar

万字长文stable diffusion

最新资源

万字长文详解企业级B端设计规范搭建思路（实战篇）.docx