- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 使用Pyspark库读取kafka流数据
这是 Spark SQL 与 Kafka 集成的 JAR 包。它提供了与 Kafka 版本集成所需的类和方法,可用于将 Spark SQL 与 Kafka 进行无缝集成,通过 SQL 查询和处理 Kafka 中的数据。:这是 Kafka 客户端库的 JAR 包,用于与 Kafka 集群进行通信。:它提供了与 Kafka 集成所需的类和方法,可以从 Kafka 主题中以低延迟、高吞吐量的方式读取和处理数据。首先我们需要准备5个连接和读取kafka的jar包,放入到 spark 目录的 jars 文件夹中。
2023-09-02 17:39:03
2027
2
原创 Logstash + Kafka + python的分钟级数据实时抽取
4. 现在为止,我们实现的是全量抽取数据的操作,也就是每次都是完整的读取 mysql 表格中的数据,如果想要进行数据的增量抽取,就需要在每次读取表格的时候对字段内容进行记录,目前能够记录的数据是数字类型的numeric和时间类型的timestamp两种。2. 使用 Python 消费 kafka 数据,并且格式化之后写入到 hdfs 中,现在 kafka 获取的源数据库数据是以 json 来显示行的,所以我们需要的是对 json 进行解析,然后转换成 dataframe 写入 csv 文件。
2023-04-25 21:09:59
1613
1
原创 华为GAUSS数据库常用的单行操作函数介绍
介绍在GAUSS数据库里面,众多的数据类型里面对应的那些单行操作函数,方便进行数据的转换和计算处理等。
2022-10-27 15:58:48
17459
1
原创 华为gauss数据库常见的13种数据类型介绍
给大家介绍华为GAUSS数据库常用的数据类型部分,让大家对整体的数据有一个基本概念,方便后期的学习
2022-10-27 15:33:21
17200
原创 华为GAUSS数据库的安装和部署(基于centos 7.6的版本)- 企业版单节点安装
有很多同学对华为的GAUSS数据库感兴趣,我这里准备起一个专栏来给大家介绍华为GAUSS数据库的使用,希望大家感兴趣的可以多关注。这一篇是介绍GAUSS数据库企业版单节点服务器安装的。
2022-10-27 14:50:09
11593
7
flume1.11 jdk 8u144kafka 2.12-3.2.0logstash 7.9.2
2023-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人