code@fzk-CSDN博客

原创大数据技术目录

HadoopHadoop环境安装HDFS的详细使用MapReduce的详细使用Yarn的详细使用Zookeeper的简单使用Kafka的详细使用Flume的详细使用Sqoop的简单使用HBase的详细使用Hive的详细使用SparkSpark部署SparkCore环境准备SparkSQL的简单使用SparkStreaming的简单使用FlinkFlink的详细使用Flink-TableAPI&SQL快速上手Azkaban的简单使用ClickHouse的详细使用

2021-04-13 17:04:28 484

原创 Java高级（泛型&反射）

（Reflection）是指在运行时动态获取类的信息（如类名、方法、字段、构造函数等）并操作这些信息的能力。包提供支持，允许程序在运行时检查和修改类的结构、调用方法、访问字段或创建对象，即使这些信息在编译时未知。: 表示集合中的元素类型，强调类型是集合（如 List、Set、Queue 等）中的个体元素。在 Java 集合框架中（如 List、Set），E 是标准命名。: 表示通用类型，通常用于表示任意类型或抽象类型。泛型方法可以独立于泛型类，在调用时自动推断类型。表示未知类型，常用于限制类型范围。

2025-04-21 17:29:22 748

原创 Nginx详细使用

Nginx 是一个高性能的 HTTP 和反向代理服务器,特点是占有内存少，并发能力强，事实上 nginx 的并发能力确实在同类型的网页服务器中表现较好。

2025-04-21 16:19:14 720

原创 Shell常用功能详细使用

Shell常用功能详细使用变量系统变量自定义变量特殊变量运算符语法条件判断基本语法流程控制ifcaseforwhile输入readshell工具awkcutsedsorttr高级功能时间时间转换当前时间加减时间指定时间加减时间获取当前应用的pid值脚本传参写法获取端口信息文件相关删除历史目录或文件basename（获取文件名）dirname（获取父目录）字体颜色获取环境信息

2025-04-21 15:50:58 957

原创 Maven编译打包

将 Java 应用程序及其所有依赖项打包成一个可执行的 JAR 文件。将所有文件打包成一个单独的分发包。

2025-04-21 15:32:11 657

原创 Docker详细使用

分为目录挂载和卷映射相同点都是将容器里的目录挂载到本地目录当被挂载的本地目录存在时使用本地目录下的内容，如果本地目录不存在则自动创建目录不同点目录挂载：本地挂载目录不存时会自动创建，**不会**将容器的挂载目录内容拷贝到本地卷映射：本地挂载目录不存时会自动创建，**会**将容器的挂载目录内容拷贝到本地作用容器间的互联和通信以及端口映射容器IP变动时候可以通过服务名直接网络通信而不受到影响模式介绍bridge模式：让主机和容器之间可以通过网桥相互通信。

2025-04-14 19:50:03 998

原创 SparkSQL调优

Spark Shuffle 过程中，shuffle reduce task 的 buffer 缓冲区大小决定了 reduce task 每次能够缓冲的数据量，也就是每次能够拉取的数据量，如果内存资源较为充足，适当增加拉取数据缓冲区的大小，可以减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。读取的数据源有很多小文件，会造成查询性能的损耗，大量的数据分片信息以及对应产生的 Task 元信息也会给 Spark Driver 的内存造成压力，带来单点问题。reduce 端数据拉取缓冲区的大小设置，

2024-07-01 19:21:57 1574

原创修改jar包中class文件并重新打包

修改jar包中class文件并重新打包org.apache.seatunnel.shade.connector.file.org.apache.avro.SchemaParseException: Illegal initial character: $ip使用parquet格式Avro数据序列化过程中报错，报错原因：Avro对字段名有校验，只支持字母和下划线开头[A-Za-z_]，本次报错Illegal initial character:` $ip`就是使用了`$ip`字段名，字段名`$`开头所以校

2023-12-13 15:22:01 1640

原创 Mockito简单使用

Mockito 是一款Java类/接口/对象的Mock工具，目前广泛应用于Java应用程序的单元测试中一句话说明功能：你需要什么就可以mock什么。（比如本地没有Redis但是开发时又需要用到，那么就可以mock一个Redis的功能来隔离对Redis的依赖）

2022-12-28 16:10:49 1047

原创 python常用功能汇总

python常用功能汇总脚本传参写法

2022-12-13 10:19:14 289

原创 Shell常用功能汇总

Shell常用功能汇总时间时间转换当前时间加减时间指定时间加减时间获取当前应用的pid值获取端口信息删除历史目录或文件awkcutsedsort

2022-12-12 15:42:20 702

原创 Impala常用时间转换函数

Impala常用时间转换函数

2022-11-23 20:01:28 1907

原创 Flink-CDC-快速入手（MySQL为例）

官方文档地址上面所用的反序列化器是自带的String字符串序列化器我们可以自定义反序列化器，实现//1.创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment . getExecutionEnvironment();

2022-09-13 16:28:45 2372

原创 Flink-CEP快速入门

所谓 CEP，其实就是“复杂事件处理（Complex Event Processing）”的缩写；而 Flink CEP，就是 Flink 实现的一个用于复杂事件处理的库（library）把事件流中的一个个简单事件，通过一定的规则匹配组合起来，这就是“复杂事件”；然后基于这些满足规则的一组组复杂事件进行转换处理，得到想要的结果进行输出。

2022-09-09 17:09:30 1716

原创 Flink-TableAPI&SQL快速上手

0. 程序流程1. 创建表环境2. 创建表连接器表（Connector Tables）虚拟表（Virtual Tables）3. 表的查询执行 SQL 进行查询调用 Table API 进行查询4. 输出表5. 表和流的相互转换流转换成表（fromDataStream）调用 fromDataStream 方法调用 fromChangelogStream ()方法调用 createTemporaryView() 方法表转换成流调用 toDataStream() 方法

2022-09-06 16:03:03 2075

原创 Java线程池简单使用及说明

Java线程池简单使用及说明

2022-08-11 11:19:17 234

原创 Arthas简单使用

Arthas简单使用

2022-08-11 10:52:52 1512

原创 JMockit简单使用

参考文档http://www.jmockit.cn/index.htm是什么？简介JMockit是一款Java类/接口/对象的Mock工具，目前广泛应用于Java应用程序的单元测试中一句话说明功能：你需要什么就可以mock什么。（比如本地没有Redis但是开发时又需要用到，那么就可以mock一个Redis的功能来隔离对Redis的依赖）基本流程record（录制）---- replay（回放） ---- verify（验证）1、record : 设置将要被调用的方法和返回值。Expect

2022-03-20 14:23:48 4713

原创 Flink-DataStream快速上手

Flink的详细使用1. 安装部署安装第一步：将 flink-1.10.1-bin-scala_2.12.tgz 上传到服务器中并解压缩第二步：修改 conf/flink-conf.yaml 文件# 修改 jobmanager.rpc.address 参数，修改为 jobmanager 的机器jobmanager.rpc.address: hadoop151第三步：修改 conf/slaves 文件# slave 机器hadoop152hadoop153第四步：将

2021-10-11 16:24:21 3984

原创 Kafka的详细使用

kafka详细使用（从安装到程序开发详细使用）

2021-08-20 17:26:27 3551

原创 Hive的详细使用

Hive文章目录Hive1、Hive安装部署安装Hive安装MySQLHive元数据配置到MySQL访问Hive的方式使用元数据服务的方式访问 Hive使用 JDBC 方式访问 HiveHive 常见属性配置运行日志信息配置打印当前库和表头2、Hive 数据类型基本数据类型集合数据类型类型转化3、DDL 数据定义数据库数据表4、DML 数据操作数据导入（五种）数据导出清除表中的数据（truncate）5、查询普通查询排序全局排序（order by）每个Reduce内部排序（Sort By）分区（Di

2021-08-09 19:11:25 1822

原创 HBase的详细使用

HBase文章目录HBase1、安装2、shell命令基本操作表的操作数据的操作3、API准备环境表操作API（DDL）判断表是否存在创建表删除表创建命名空间数据操作API（DML）插入数据获取数据（get）获取数据（scan）删除数据MapReduce环境准备官方案例自定义Hbase-MapReduce将 HDFS 中的数据写入到 Hbase 表中（打成jar包上传到服务器运行）将一张表中的部分数据通过 MR 迁入到另一张表中（在本地运行）4、优化高可用预分区（四种方式）基础优化1、安装第一步：

2021-08-09 19:11:11 2610

原创 Yarn的详细使用

Yarn文章目录Yarn1、常用命令查看任务(yarn application)查看日志(yarn logs)查看尝试运行的任务(yarn applicationattempt)查看容器(yarn container)查看节点状态(yarn node)查看队列(yarn queue)2、生产环境核心参数3、Yarn 案例实操Yarn 生产环境核心参数配置案例容量调度器多队列提交案例公平调度器案例1、常用命令查看任务(yarn application)列出所有 Applicationyarn a

2021-08-09 19:10:37 795

原创 MapReduce的详细使用

MapReduce文章目录MapReduce1、常用数据序列化类型2、编程规范（三个阶段）Mapper阶段Reducer阶段Driver阶段3、编程环境准备4、简单案例(单词统计)5、序列化序列化概述自定义 bean 对象实现序列化接口（Writable）步骤程序（序列化接口）6、InputFormat 数据输入TextInputFormat（默认）CombineTextInputFormat7、Shuffle 机制Partition 分区自定义Partitioner步骤Job驱动类示例分区总结Writ

2021-08-09 19:10:05 2486

原创 HDFS的详细使用

HDFS文章目录HDFS1、Shell 操作上传下载直接操作(和Linux命令功能一样)2、API 操作准备工作文件上传文件下载修改文件名称删除文件和目录文件详情查看文件和文件夹判断修改参数方法参数优先级1、Shell 操作上传-moveFromLocal：从本地剪切粘贴到 HDFShadoop fs -moveFromLocal 本地文件 HDFS目录-copyFromLocal：从本地文件系统中拷贝文件到 HDFS 路径去hadoop fs -copyFromLocal 本地文件

2021-08-09 19:09:36 664

原创 Hadoop环境安装

Hadoop分布式环境文章目录Hadoop分布式环境0、前期准备创建普通用户ssh免密登录1、分布式基本环境搭建集群部署规划环境搭建步骤启动集群2、配置历史服务器和日志的聚集环境搭建启动3、集群启动/停止方式总结各个模块分开启动/停止（配置ssh 是前提）各个服务组件逐一启动/停止4、编写 Hadoop 集群常用脚本Hadoop 集群启停脚本查看三台服务器 Java 进程脚本5、常用端口号说明6、高可用环境搭建（HA）集群规划配置 HDFS-HA 集群配置Zookeeper集群配置 HDFS-HA 集群配

2021-08-09 19:09:17 1087

原创 Flume的详细使用

Flume文章目录Flume1、简介2、快速入门安装3、配置及简单使用配置source配置（常用）sink配置（常用）channel配置（常用）使用监控端口数据到控制台（netcat-memeory-logger）实时监控单个追加文件到控制台（exec-memeory-logger）实时监控单个追加文件到HDFS（exec-memeory-hdfs）实时监控目录下多个新文件（spooldir-memory-hdfs）实时监控目录下的多个追加文件（taildir-memory-hdfs）Flume对接Kaf

2021-08-09 19:08:49 2155

原创 ClickHouse的详细使用

ClickHouse文章目录ClickHouse1、安装2、数据类型整型浮点型布尔型Decimal 型字符串时间类型数组3、表引擎TinyLog（不适用）Memory（不适用）MergeTree（推荐）手动合并二级索引数据 TTLReplacingMergeTreeSummingMergeTree4、SQL 操作5、副本配置步骤6、分片集群简介3 分片 2 副本共 6 个节点集群配置配置三节点版本集群及副本1、安装第一步：修改 /etc/security/limits.conf 文件并同步到其他服

2021-08-09 19:07:58 1682

原创 Azkaban的简单使用

Azkaban文章目录Azkaban1、安装集群部署规划安装步骤一、配置MySQL二、配置Executor Server三、配置Web Server2、Work Flow 案例执行单个作业依赖自动失败重试3、Azkaban 进阶JavaProcess 作业类型条件工作流运行时参数预定义宏案例邮件报警1、安装集群部署规划hadoop151hadoop152hadoop153Web Server√Executor Server√√√安装步骤一、配置My

2021-08-09 19:07:09 1300

原创 Presto的环境安装

Presto文章目录Presto1、安装Server安装命令行Client安装可视化Client安装1、安装Server安装第一步：将 presto-server-0.196.tar.gz 上传到服务器并解压第二步：在 presto 目录下创建存储数据和配置文件文件夹# 创建存储数据文件夹mkdir data# 创建存储配置文件文件夹mkdir etc第三步：配置在 etc 目录下添加 jvm.config 配置文件-server-Xmx16G-XX:+UseG1G

2021-08-06 09:56:27 319

原创 SparkCore的简单使用

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可根据需要重新分片。分布式：数据存储在大数据集群不同节点上数据集：RDD 封装了计算逻辑，并不保存数据数据抽象：RDD 是一个抽象类，需要子类具体实现。

2021-08-06 09:54:41 520

原创 SparkSQL的简单使用

SparkSQL文章目录SparkSQL1、简介DataFrameDataSet2、Shell命令DataFrameDataSet3、IDEA开发环境准备RDD、DataFrame、DataSet 三者相互转换自定义函数UDFUDAF4、加载和保存方式加载数据保存数据APIMySQLHive1、简介DataFrame在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元

2021-08-06 09:53:37 1545

空空如也

空空如也