Spark Streaming 是 Apache Spark 提供的用于实时数据处理的组件,而 Kafka 是一个分布式流式平台,常用于处理实时数据流。在 Spark Streaming 中,我们可以使用两种方式读取 Kafka 数据,分别是直接使用 Kafka Consumer 和使用 Spark 的集成库。
方式一:直接使用 Kafka Consumer
直接使用 Kafka Consumer 是一种简单直接的方式,可以通过编写代码来实现对 Kafka 数据的读取和处理。下面是一个使用 Kafka Consumer 读取 Kafka 数据的示例代码:
from kafka import KafkaConsumer
from pyspark.sql import SparkSession
# 创建 KafkaConsumer 实例
consumer = KafkaConsumer(</