宝哥大数据-CSDN博客

原创数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

2024-11-10 16:26:33 1460

一、数据仓库 1.1、什么是数据仓库 1.1.1、简介 1.1.2、四个特性 1.1.2.1、面向主题 1.1.2.2、集成化的 1.1.2.3、稳定性 1.1.2.4、随着时间变化的 1.2、数据仓库发展 1.3、数据库与数据仓库的区别 1.4、数据仓库架构分层 1.5、元数据介绍 1.6、数据仓库建模 1.6.1、事实表与维度表 1.6.2、雪花模型 1.6.3、星型模型 1.6.4、星座模型 1.7、 1.x、 1.

2021-08-25 21:16:15 1692 5

原创实时数仓

1、实时数仓(一)

2021-02-04 08:41:48 572

原创 impala目录导图

一、Impala介绍二、Impala架构及组件三、安装（这个忽略，使用的CDH，傻瓜式安装v3.1.0-cdh6.1.1）四、Impala-shell五、SQL语法

2020-12-29 06:53:53 471

原创 kudu导图目录

一、kudu介绍1.1、背景1.2、kudu组件二、操作kudu2.1、使用javaAPIc操作苦读

2020-12-27 15:07:39 527

原创 Flume入门及进阶教程

一、Flume介绍二、Flume入门三、Flume的高级特性

2020-08-08 11:09:26 1037

原创 Flink目录导读

一、Flink是什么二、Flink快速入门三、Flink的安装与部署。。。

2020-05-31 11:13:08 2927 7

原创机器学习(Macheine Learning)面试知识点

Spark MLlib 机器学习算法及实践

2020-05-07 09:44:08 1149

原创 kafka目录导读（入门到进阶）

一、部署1.1、安装部署二、概念及理论2.1、2.2、kafka文件存储三、整合3.1、kafka+flume3.2、flume+kafka+stormflume之kafkaSinkstrom之KafkaSpout测试问题

2020-05-06 15:48:58 679

原创大数据开发岗位需要的知识

一、大数据的三个发展方向平台搭建/优化/运维/监控大数据开发/设计/架构数据分析/挖掘。二、大数据的4V特征：数据量大，TB->PB数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；处理时效性高，海量数据的处理需求不再局限在离线计算当中。现如今，正式为了应对大数据...

2020-04-22 17:54:33 1041

原创深度学习入门、进阶教程

一、框架1.1、TensorFlow1.2、PaddlePaddle1.3、Pytorch

2019-12-05 08:45:42 850

原创算法与数据结构面试知识点

Algorithm

2019-10-07 14:41:55 1001

原创 Redis目录

一、安装1.1、安装二、Redis的基础数据类型三、Redis的高级特性

2019-06-20 22:56:20 981

原创 python导图目录

python导图目录

2019-04-23 22:57:53 546

原创 ES入门与进阶

ES 类比 MySqlMySqlESdatabase(数据库)index(索引库)table(表)type(类型)row(行)document(文档)column(列)field(字段)

2019-02-07 14:22:48 1479 1

原创 Linux导图目录

一、命令1.1、shell时间格式转化

2018-08-20 13:53:13 631

原创 Hive目录导图

一、hive基础篇1.1、介绍1.2、安装1.3、命令1.4、数据模型1.5、表结构1.6、函数1.7、hive的jdbc模式

2018-08-06 09:46:38 1043 2

原创 java 接口服务

一、发布htttp服务器1.1、通过tomcat发布服务1.2、通过socket获取http信息

2018-07-10 13:30:15 1866

原创 spark目录导图

一、介绍1.1、RDD介绍二、安装三、算子四、简单案例五、整合六、问题七、总结

2018-06-26 08:41:49 1130

原创 hadoop目录导图

MapReduce原理 mapper, reducer,shuffle hadoop实现join方法

2018-06-24 23:10:25 507

原创 hbase目录导图

一、介绍 1.1、hbase简介hbase数据模型hbase体系架构1.2、基本命令

2018-06-20 13:44:18 1197 1

原创 Storm目录导图

Strom样例代码

2018-06-20 13:44:01 1196

原创 hivesql 分区裁剪遇到join的顺序

【代码】hivesql 分区裁剪遇到join的顺序。

2025-04-20 17:08:30 210

原创数据中台、数据湖和数据仓库区别

2025-04-13 19:31:22 1304

原创面试题： Kafka能够高效且写入速度快的原因

Kafka的高效性和快速写入能力源于其分区设计、顺序读写、批量优化、零拷贝技术、异步I/O、压缩技术、PageCache机制、稀疏索引、副本机制以及高并发支持。这些技术的结合使得Kafka在处理大规模实时数据流时表现出色，适用于日志收集、流处理等多种场景。

2025-04-09 08:29:28 824

原创 Doris查询优化

【代码】Doris查询优化。

2025-04-06 11:29:41 291

原创 Flink CDC Pipeline mysql to doris

flink lib 下导入。flink lib 引入。

2025-04-04 11:09:33 567

原创 Flinksql--订单宽表

参考： https://chbxw.blog.csdn.net/article/details/115078261 (datastream 实现)当写入目标表时，若查询结果包含多个行时间属性字段（如。在查询中选择一个时间字段作为事件时间，将其他时间字段转为普通。若业务需要同时保留两个时间字段，需在目标表 DDL 中。在 Flink SQL 中，每个表只能有一个。在写入时检测到多个行时间属性字段（定义，且对应字段为行时间属性。将非主时间字段转为普通。模拟订单表及订单明细表。

2025-04-02 20:42:46 814

原创 Flink SQL-Client Kafka connector

下载对应版本的 Kafka 连接器 JAR 文件（如 flink-sql-connector-kafka-.jar），并放置到 Flink 的 lib/ 目录下。

2025-03-31 18:09:44 517

原创 flink 基站与服务器长连接，每次连接和断开都会上报数据，统计过去一小时每个基站断开次数和时长

需求：基站与服务器长连接，每次连接和断开都会上报数据，统计过去一小时每个基站断开次数和时长。

2025-03-30 12:41:45 362

原创 Flink内存模型--flink1.19.1

Flink 的 JobManager 和 TaskManager 在内存分配上有不同的职责和结构。

2025-03-30 08:07:52 1376

原创 flink 分组窗口聚合与窗口表值函数聚合的区别

是两种不同的窗口处理方式，主要区别体现在语法结构、灵活性和适用场景上。根据业务需求和 Flink 版本选择合适的方案，复杂场景优先使用窗口表值函数。在 Apache Flink 中，

2025-03-28 20:51:41 1045

原创 Flink SQL Client bug ---datagen connector

【代码】Flink SQL Client bug。

2025-03-28 13:43:29 518

原创 SparkSQL中时间日期、字符串、时间戳之间转换

将时间戳格式化为指定字符串（格式符与 Java 兼容，如。将 Unix 时间戳（秒）转为字符串，默认格式。双向转换 Unix 时间戳与日期字符串。将字符串转为时间戳类型，默认格式。返回当前 Unix 时间戳（秒）。将指定时区时间转为 UTC 时间。将 UTC 时间转为指定时区时间。将字符串转为日期类型，默认格式。）截断日期，其他部分置为默认值。会保留小时，分钟以下置零。按单位截断时间戳，如。

2025-03-26 06:55:38 3385