- 博客(71)
- 收藏
- 关注

原创 大数据技术目录
HadoopHadoop环境安装HDFS的详细使用MapReduce的详细使用Yarn的详细使用Zookeeper的简单使用Kafka的详细使用Flume的详细使用Sqoop的简单使用HBase的详细使用Hive的详细使用SparkSpark部署SparkCore环境准备SparkSQL的简单使用SparkStreaming的简单使用FlinkFlink的详细使用Flink-TableAPI&SQL快速上手Azkaban的简单使用ClickHouse的详细使用
2021-04-13 17:04:28
484
原创 Java高级(泛型&反射)
(Reflection)是指在运行时动态获取类的信息(如类名、方法、字段、构造函数等)并操作这些信息的能力。包提供支持,允许程序在运行时检查和修改类的结构、调用方法、访问字段或创建对象,即使这些信息在编译时未知。: 表示集合中的元素类型,强调类型是集合(如 List、Set、Queue 等)中的个体元素。在 Java 集合框架中(如 List、Set),E 是标准命名。: 表示通用类型,通常用于表示任意类型或抽象类型。泛型方法可以独立于泛型类,在调用时自动推断类型。表示未知类型,常用于限制类型范围。
2025-04-21 17:29:22
748
原创 Nginx详细使用
Nginx 是一个高性能的 HTTP 和反向代理服务器,特点是占有内存少,并发能力强,事实上 nginx 的并发能力确实在同类型的网页服务器中表现较好。
2025-04-21 16:19:14
720
原创 Shell常用功能详细使用
Shell常用功能详细使用变量系统变量自定义变量特殊变量运算符语法条件判断基本语法流程控制ifcaseforwhile输入readshell工具awkcutsedsorttr高级功能时间时间转换当前时间加减时间指定时间加减时间获取当前应用的pid值脚本传参写法获取端口信息文件相关删除历史目录或文件basename(获取文件名)dirname(获取父目录)字体颜色获取环境信息
2025-04-21 15:50:58
957
原创 Docker详细使用
分为目录挂载和卷映射相同点都是将容器里的目录挂载到本地目录当被挂载的本地目录存在时使用本地目录下的内容,如果本地目录不存在则自动创建目录不同点目录挂载:本地挂载目录不存时会自动创建,**不会**将容器的挂载目录内容拷贝到本地卷映射:本地挂载目录不存时会自动创建,**会**将容器的挂载目录内容拷贝到本地作用容器间的互联和通信以及端口映射容器IP变动时候可以通过服务名直接网络通信而不受到影响模式介绍bridge模式:让主机和容器之间可以通过网桥相互通信。
2025-04-14 19:50:03
998
原创 SparkSQL调优
Spark Shuffle 过程中,shuffle reduce task 的 buffer 缓冲区大小决定了 reduce task 每次能够缓冲的数据量,也就是每次能够拉取的数据量,如果内存资源较为充足,适当增加拉取数据缓冲区的大小,可以减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。读取的数据源有很多小文件,会造成查询性能的损耗,大量的数据分片信息以及对应产生的 Task 元信息也会给 Spark Driver 的内存造成压力,带来单点问题。reduce 端数据拉取缓冲区的大小设置,
2024-07-01 19:21:57
1574
原创 修改jar包中class文件并重新打包
修改jar包中class文件并重新打包org.apache.seatunnel.shade.connector.file.org.apache.avro.SchemaParseException: Illegal initial character: $ip使用parquet格式Avro数据序列化过程中报错,报错原因:Avro对字段名有校验,只支持字母和下划线开头[A-Za-z_],本次报错Illegal initial character:` $ip`就是使用了`$ip`字段名,字段名`$`开头所以校
2023-12-13 15:22:01
1640
原创 Mockito简单使用
Mockito 是一款Java类/接口/对象的Mock工具,目前广泛应用于Java应用程序的单元测试中一句话说明功能:你需要什么就可以mock什么。(比如本地没有Redis但是开发时又需要用到,那么就可以mock一个Redis的功能来隔离对Redis的依赖)
2022-12-28 16:10:49
1047
原创 Shell常用功能汇总
Shell常用功能汇总时间时间转换当前时间加减时间指定时间加减时间获取当前应用的pid值获取端口信息删除历史目录或文件awkcutsedsort
2022-12-12 15:42:20
702
原创 Flink-CDC-快速入手(MySQL为例)
官方文档地址上面所用的反序列化器是自带的String字符串序列化器我们可以自定义反序列化器,实现//1.创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment . getExecutionEnvironment();
2022-09-13 16:28:45
2372
原创 Flink-CEP快速入门
所谓 CEP,其实就是“复杂事件处理(Complex Event Processing)”的缩写;而 Flink CEP,就是 Flink 实现的一个用于复杂事件处理的库(library)把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;然后基于这些满足规则的一组组复杂事件进行转换处理,得到想要的结果进行输出。
2022-09-09 17:09:30
1716
原创 Flink-TableAPI&SQL快速上手
0. 程序流程1. 创建表环境2. 创建表连接器表(Connector Tables)虚拟表(Virtual Tables)3. 表的查询执行 SQL 进行查询调用 Table API 进行查询4. 输出表5. 表和流的相互转换流转换成表(fromDataStream)调用 fromDataStream 方法调用 fromChangelogStream ()方法调用 createTemporaryView() 方法表转换成流调用 toDataStream() 方法
2022-09-06 16:03:03
2075
原创 JMockit简单使用
参考文档http://www.jmockit.cn/index.htm是什么?简介JMockit是一款Java类/接口/对象的Mock工具,目前广泛应用于Java应用程序的单元测试中一句话说明功能:你需要什么就可以mock什么。(比如本地没有Redis但是开发时又需要用到,那么就可以mock一个Redis的功能来隔离对Redis的依赖)基本流程record(录制)---- replay(回放) ---- verify(验证)1、record : 设置将要被调用的方法和返回值。Expect
2022-03-20 14:23:48
4713
原创 Flink-DataStream快速上手
Flink的详细使用1. 安装部署安装第一步:将 flink-1.10.1-bin-scala_2.12.tgz 上传到服务器中并解压缩第二步:修改 conf/flink-conf.yaml 文件# 修改 jobmanager.rpc.address 参数,修改为 jobmanager 的机器jobmanager.rpc.address: hadoop151第三步:修改 conf/slaves 文件# slave 机器hadoop152hadoop153第四步:将
2021-10-11 16:24:21
3984
原创 Hive的详细使用
Hive文章目录Hive1、Hive安装部署安装Hive安装MySQLHive元数据配置到MySQL访问Hive的方式使用元数据服务的方式访问 Hive使用 JDBC 方式访问 HiveHive 常见属性配置运行日志信息配置打印 当前库 和 表头2、Hive 数据类型基本数据类型集合数据类型类型转化3、DDL 数据定义数据库数据表4、DML 数据操作数据导入(五种)数据导出清除表中的数据(truncate)5、查询普通查询排序全局排序(order by)每个Reduce内部排序(Sort By)分区(Di
2021-08-09 19:11:25
1822
原创 HBase的详细使用
HBase文章目录HBase1、安装2、shell命令基本操作表的操作数据的操作3、API准备环境表操作API(DDL)判断表是否存在创建表删除表创建命名空间数据操作API(DML)插入数据获取数据(get)获取数据(scan)删除数据MapReduce环境准备官方案例自定义Hbase-MapReduce将 HDFS 中的数据写入到 Hbase 表中(打成jar包上传到服务器运行)将一张表中的部分数据通过 MR 迁入到另一张表中(在本地运行)4、优化高可用预分区(四种方式)基础优化1、安装第一步:
2021-08-09 19:11:11
2610
原创 Yarn的详细使用
Yarn文章目录Yarn1、常用命令查看任务(yarn application)查看日志(yarn logs)查看尝试运行的任务(yarn applicationattempt)查看容器(yarn container)查看节点状态(yarn node)查看队列(yarn queue)2、生产环境核心参数3、Yarn 案例实操Yarn 生产环境核心参数配置案例容量调度器多队列提交案例公平调度器案例1、常用命令查看任务(yarn application)列出所有 Applicationyarn a
2021-08-09 19:10:37
795
原创 MapReduce的详细使用
MapReduce文章目录MapReduce1、常用数据序列化类型2、编程规范(三个阶段)Mapper阶段Reducer阶段Driver阶段3、编程环境准备4、简单案例(单词统计)5、序列化序列化概述自定义 bean 对象实现序列化接口(Writable)步骤程序(序列化接口)6、InputFormat 数据输入TextInputFormat(默认)CombineTextInputFormat7、Shuffle 机制Partition 分区自定义Partitioner步骤Job驱动类 示例分区总结Writ
2021-08-09 19:10:05
2486
原创 HDFS的详细使用
HDFS文章目录HDFS1、Shell 操作上传下载直接操作(和Linux命令功能一样)2、API 操作准备工作文件上传文件下载修改文件名称删除文件和目录文件详情查看文件和文件夹判断修改参数方法参数优先级1、Shell 操作上传-moveFromLocal:从本地剪切粘贴到 HDFShadoop fs -moveFromLocal 本地文件 HDFS目录-copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去hadoop fs -copyFromLocal 本地文件
2021-08-09 19:09:36
664
原创 Hadoop环境安装
Hadoop分布式环境文章目录Hadoop分布式环境0、前期准备创建普通用户ssh免密登录1、分布式基本环境搭建集群部署规划环境搭建步骤启动集群2、配置历史服务器和日志的聚集环境搭建启动3、集群启动/停止方式总结各个模块分开启动/停止(配置ssh 是前提)各个服务组件逐一启动/停止4、编写 Hadoop 集群常用脚本Hadoop 集群启停脚本查看三台服务器 Java 进程脚本5、常用端口号说明6、高可用环境搭建(HA)集群规划配置 HDFS-HA 集群配置Zookeeper集群配置 HDFS-HA 集群配
2021-08-09 19:09:17
1087
原创 Flume的详细使用
Flume文章目录Flume1、简介2、快速入门安装3、配置及简单使用配置source配置(常用)sink配置(常用)channel配置(常用)使用监控端口数据到控制台(netcat-memeory-logger)实时监控单个追加文件到控制台(exec-memeory-logger)实时监控单个追加文件到HDFS(exec-memeory-hdfs)实时监控目录下多个新文件(spooldir-memory-hdfs)实时监控目录下的多个追加文件(taildir-memory-hdfs)Flume对接Kaf
2021-08-09 19:08:49
2155
原创 ClickHouse的详细使用
ClickHouse文章目录ClickHouse1、安装2、数据类型整型浮点型布尔型Decimal 型字符串时间类型数组3、表引擎TinyLog(不适用)Memory(不适用)MergeTree(推荐)手动合并二级索引数据 TTLReplacingMergeTreeSummingMergeTree4、SQL 操作5、副本配置步骤6、分片集群简介3 分片 2 副本共 6 个节点集群配置配置三节点版本集群及副本1、安装第一步:修改 /etc/security/limits.conf 文件并同步到其他服
2021-08-09 19:07:58
1682
原创 Azkaban的简单使用
Azkaban文章目录Azkaban1、安装集群部署规划安装步骤一、配置MySQL二、配置Executor Server三、配置Web Server2、Work Flow 案例执行单个作业依赖自动失败重试3、Azkaban 进阶JavaProcess 作业类型条件工作流运行时参数预定义宏案例邮件报警1、安装集群部署规划hadoop151hadoop152hadoop153Web Server√Executor Server√√√安装步骤一、配置My
2021-08-09 19:07:09
1300
原创 Presto的环境安装
Presto文章目录Presto1、安装Server安装命令行Client安装可视化Client安装1、安装Server安装第一步:将 presto-server-0.196.tar.gz 上传到服务器并解压第二步:在 presto 目录下创建存储数据和配置文件文件夹# 创建存储数据文件夹mkdir data# 创建存储配置文件文件夹mkdir etc第三步:配置在 etc 目录下添加 jvm.config 配置文件-server-Xmx16G-XX:+UseG1G
2021-08-06 09:56:27
319
原创 SparkCore的简单使用
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根据需要重新分片。分布式:数据存储在大数据集群不同节点上数据集:RDD 封装了计算逻辑,并不保存数据数据抽象:RDD 是一个抽象类,需要子类具体实现。
2021-08-06 09:54:41
520
原创 SparkSQL的简单使用
SparkSQL文章目录SparkSQL1、简介DataFrameDataSet2、Shell命令DataFrameDataSet3、IDEA开发环境准备RDD、DataFrame、DataSet 三者相互转换自定义函数UDFUDAF4、加载和保存方式加载数据保存数据APIMySQLHive1、简介DataFrame在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元
2021-08-06 09:53:37
1545
原创 SparkStreaming的简单使用
SparkStreaming文章目录SparkStreaming1、环境准备2、创建DStream监听端口RDD 队列Kafka自定义3、DStream 转换无状态转化操作Transformjoin有状态转化操作UpdateStateByKeyWindowOperations4、DStream 输出5、优雅关闭1、环境准备导入依赖(pom.xml)<dependency> <groupId>org.apache.spark</groupId> &l
2021-08-06 09:51:30
752
原创 Spark部署
Spark部署文章目录Spark部署1、Local 模式2、Standalone模式集群模式高可用模式3、Yarn 模式4、Windows模式5、部署模式对比1、Local 模式第一步:将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到服务器并解压第二步:启动 Local 环境bin/spark-shell第三步:提交应用# --class :表示要执行程序的主类,此处可以更换为咱们自己写的应用程序# --master local[2] :部署模式,默认
2021-08-06 09:46:12
375
原创 Sqoop的简单使用
sqoop文章目录sqoop1、安装2、导入MySQL数据准备从 MySQL 导入到 HDFS全部导入查询导入导入指定列使用sqoop关键字筛选查询导入数据从 MySQL 导入到 Hive从 MySQL 导入到 HBase3、导出HIVE/HDFS到MySQL4、常用命令常用命令列举命令&参数详解数据库连接importexporthive1、安装第一步:将 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 上传到服务器并解压第二步:将 sqoop-
2021-08-06 09:43:28
406
原创 Superset安装
Superset文章目录Superset1、安装一、安装Python环境二、Superset部署三、启动Superset启动(确保当前conda环境为superset)停止shell启动、停止 脚本1、安装一、安装Python环境第一步:下载Miniconda(Python3版本),(Miniconda3-latest-Linux-x86_64.sh),上传到服务器并运行# 下载地址https://repo.anaconda.com/miniconda/Miniconda3-latest-L
2021-08-06 09:41:16
387
原创 Zabbix的安装
Zabbix文章目录Zabbix1、安装集群部署规划安装启动停止Zabbix启动停止连接Zabbix_Web数据库1、安装集群部署规划进程hadoop151节点hadoop152节点hadoop153节点zabbix-agent√√√zabbix-server√MySQL√zabbix-web√安装第一步:关闭SELinux(修改 /etc/selinux/config )vim /etc/selinux/config
2021-08-06 09:39:09
289
原创 Zookeeper的简单使用
Zookeeper文章目录Zookeeper1、配置参数解读2、分布式安装3、命令行操作4、API使用环境准备创建节点判断节点是否存在获取子节点(不监听)获取子节点(监听)1、配置参数解读tickTime =2000:通信心跳数,Zookeeper服务器与客户端心跳时间,单位毫秒Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。它用于心跳机制,并且设置最小的session超时时间为两倍心跳时间。(
2021-08-06 09:37:01
628
原创 SpringBoot整合ShardingSphere
文章目录SpringBoot整合ShardingSphere1、Sharding-JDBC(配置文件可参考官网)分表分库(包括分表)2、Sharding-ProxySpringBoot整合ShardingSphere官网:http://shardingsphere.apache.org/1、Sharding-JDBC(配置文件可参考官网)分表第一步:创建数据库和表数据库:test数据表:user_0, user_1第二步:创建SpringBoot项目并导入依赖(pom.xml)
2021-03-26 18:05:16
2879
原创 MongoDB的简单使用
typora-copy-images-to: imagestypora-root-url: imagesMongoDB官网:https://www.mongodb.com/中文网:https://www.mongodb.org.cn/1、简介介绍MongoDB是一个开源、高性能、无模式的文档型数据库,当初的设计就是用于简化开发和方便扩展,是NoSQL数据库产品中的一种。是最像关系型数据库(MySQL)的非关系型数据库。它支持的数据结构非常松散,是一种类似于 JSON 的 格式叫BSON.
2021-03-20 10:18:00
297
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人