自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chbxw

努力是会上瘾的,尤其尝到了甜头

  • 博客(1110)
  • 资源 (10)
  • 收藏
  • 关注

原创 数据仓库面试题集&离线&实时

1、2、Flink提交方式, 使用pre-job还是yarn-session模式,好处?

2024-11-10 16:26:33 1076

原创 数据仓库思维导图

一、数据仓库 1.1、什么是数据仓库   1.1.1、简介   1.1.2、四个特性    1.1.2.1、面向主题    1.1.2.2、集成化的    1.1.2.3、稳定性    1.1.2.4、随着时间变化的  1.2、数据仓库发展 1.3、数据库与数据仓库的区别 1.4、数据仓库架构分层 1.5、元数据介绍 1.6、数据仓库建模  1.6.1、事实表 与 维度表  1.6.2、雪花模型  1.6.3、星型模型  1.6.4、星座模型 1.7、 1.x、  1.

2021-08-25 21:16:15 1511 5

原创 实时数仓

1、实时数仓(一)

2021-02-04 08:41:48 410

原创 impala目录导图

一、Impala介绍二、Impala架构及组件三、安装(这个忽略,使用的CDH,傻瓜式安装v3.1.0-cdh6.1.1)四、Impala-shell五、SQL语法

2020-12-29 06:53:53 322

原创 kudu导图目录

一、kudu介绍1.1、背景1.2、kudu组件二、操作kudu2.1、使用javaAPIc操作苦读

2020-12-27 15:07:39 354

原创 Flume入门及进阶教程

一、Flume介绍二、Flume入门三、Flume的高级特性

2020-08-08 11:09:26 878

原创 Flink目录导读

一、Flink是什么二、Flink快速入门三、Flink的安装与部署。。。

2020-05-31 11:13:08 2405 5

原创 机器学习(Macheine Learning)面试知识点

Spark MLlib 机器学习算法及实践

2020-05-07 09:44:08 999

原创 kafka目录导读(入门到进阶)

一、部署1.1、安装部署二、概念及理论2.1、2.2、kafka文件存储三、整合3.1、kafka+flume3.2、flume+kafka+stormflume之kafkaSinkstrom之KafkaSpout测试问题

2020-05-06 15:48:58 522

原创 大数据开发 岗位需要的知识

一、大数据的三个发展方向平台搭建/优化/运维/监控大数据开发/设计/架构数据分析/挖掘。二、大数据的4V特征:数据量大,TB->PB数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;处理时效性高,海量数据的处理需求不再局限在离线计算当中。  现如今,正式为了应对大数据...

2020-04-22 17:54:33 859

原创 深度学习入门、进阶教程

一、框架1.1、TensorFlow1.2、PaddlePaddle1.3、Pytorch

2019-12-05 08:45:42 691

原创 算法与数据结构面试知识点

Algorithm

2019-10-07 14:41:55 848

原创 Redis目录

一、安装1.1、安装二、Redis的基础数据类型三、Redis的高级特性

2019-06-20 22:56:20 817

原创 python导图目录

python导图目录

2019-04-23 22:57:53 404

原创 ES入门与进阶

ES 类比 MySqlMySqlESdatabase(数据库)index(索引库)table(表)type(类型)row(行)document(文档)column(列)field(字段)

2019-02-07 14:22:48 1292 1

原创 Linux导图目录

一、命令1.1、shell时间格式转化

2018-08-20 13:53:13 450

原创 Hive目录导图

一、hive基础篇1.1、介绍1.2、安装1.3、命令1.4、数据模型1.5、表结构1.6、函数1.7、hive的jdbc模式

2018-08-06 09:46:38 885 2

原创 java 接口服务

一、发布htttp服务器1.1、通过tomcat发布服务1.2、通过socket获取http信息

2018-07-10 13:30:15 1694

原创 spark目录导图

一、介绍1.1、RDD介绍二、安装三、算子四、简单案例五、整合六、问题七、总结

2018-06-26 08:41:49 975

原创 hadoop目录导图

MapReduce原理 mapper, reducer,shuffle hadoop实现join方法

2018-06-24 23:10:25 459

原创 hbase目录导图

一、介绍 1.1、hbase简介hbase数据模型hbase体系架构1.2、基本命令

2018-06-20 13:44:18 1042 1

原创 Storm目录导图

Strom样例代码

2018-06-20 13:44:01 1036

原创 hivesql 分区裁剪遇到join的顺序

【代码】hivesql 分区裁剪遇到join的顺序。

2025-04-20 17:08:30 71

原创 数据中台、数据湖和数据仓库 区别

2025-04-13 19:31:22 814

原创 面试题: Kafka能够高效且写入速度快的原因

Kafka的高效性和快速写入能力源于其分区设计、顺序读写、批量优化、零拷贝技术、异步I/O、压缩技术、PageCache机制、稀疏索引、副本机制以及高并发支持。这些技术的结合使得Kafka在处理大规模实时数据流时表现出色,适用于日志收集、流处理等多种场景。

2025-04-09 08:29:28 561

原创 Doris查询优化

【代码】Doris查询优化。

2025-04-06 11:29:41 125

原创 Flink CDC Pipeline mysql to doris

flink lib 下导入。flink lib 引入。

2025-04-04 11:09:33 334

原创 Flinksql--订单宽表

参考: https://chbxw.blog.csdn.net/article/details/115078261 (datastream 实现)当写入目标表时,若查询结果包含多个行时间属性字段(如。在查询中选择一个时间字段作为事件时间,将其他时间字段转为普通。若业务需要同时保留两个时间字段,需在目标表 DDL 中。在 Flink SQL 中,每个表只能有一个。在写入时检测到多个行时间属性字段(定义,且对应字段为行时间属性。将非主时间字段转为普通。模拟订单表及订单明细表。

2025-04-02 20:42:46 579

原创 Flink SQL-Client Kafka connector

下载对应版本的 Kafka 连接器 JAR 文件(如 flink-sql-connector-kafka-.jar),并放置到 Flink 的 lib/ 目录下。

2025-03-31 18:09:44 288

原创 flink 基站与服务器长连接,每次连接和断开都会上报数据,统计过去一小时每个基站断开次数和时长

需求: 基站与服务器长连接,每次连接和断开都会上报数据,统计过去一小时每个基站断开次数和时长。

2025-03-30 12:41:45 276

原创 Flink内存模型--flink1.19.1

Flink 的 JobManager 和 TaskManager 在内存分配上有不同的职责和结构。

2025-03-30 08:07:52 990

原创 flink 分组窗口聚合 与 窗口表值函数聚合 的区别

是两种不同的窗口处理方式,主要区别体现在语法结构、灵活性和适用场景上。根据业务需求和 Flink 版本选择合适的方案,复杂场景优先使用窗口表值函数。在 Apache Flink 中,

2025-03-28 20:51:41 746

原创 Flink SQL Client bug ---datagen connector

【代码】Flink SQL Client bug。

2025-03-28 13:43:29 363

原创 SparkSQL中时间日期、字符串、时间戳之间转换

将时间戳格式化为指定字符串(格式符与 Java 兼容,如。将 Unix 时间戳(秒)转为字符串,默认格式。双向转换 Unix 时间戳与日期字符串。将字符串转为时间戳类型,默认格式。返回当前 Unix 时间戳(秒)。将指定时区时间转为 UTC 时间。将 UTC 时间转为指定时区时间。将字符串转为日期类型,默认格式。)截断日期,其他部分置为默认值。会保留小时,分钟以下置零。按单位截断时间戳,如。

2025-03-26 06:55:38 1329

原创 Flink 常用及优化参数

流批模式checkpoint在这里插入代码片以下是 Flink SQL Client 中与。

2025-03-23 21:20:13 578

原创 Paimon的 merge engine

【代码】Paimon的 merge engine。

2025-03-23 07:51:52 378

原创 paimon---同步mysql数据到paimon表中

参考: https://blog.csdn.net/wuxintdrh/article/details/146165736。

2025-03-11 09:02:56 324

原创 flink cdc同步mysql数据

flink sql cdc mysql

2025-03-10 22:34:17 442

原创 hive面试题--left join的坑

student 表:课程表course:on and c.id<>‘1001’ 先过滤右表数据,然后与左表关联where c.id<>‘1001’ 先关联,然后过滤结果数据模拟数据:

2025-03-10 13:34:50 392

原创 paimon中的主键表与append-only 以与merge-engine 和 changelog-producer 关系

在 Apache Paimon 中,是两种核心表类型,其行为与。

2025-03-09 14:31:39 857

企业级360用户画像的配置数据 tags.zip

企业级360用户画像的配置数据

2021-06-25

mdnice_1_0_7.crx

将CSDN中文章同步到微信公众号

2021-06-15

360用户画像标签及源数据

360用户画像标签及源数据

2021-05-28

企业级360用户画像.pdf

360用户画像

2021-05-26

Hive实战之视频网站的测试数据

Hive实战之视频网站 测试数据 https://chbxw.blog.csdn.net/article/details/107738550

2020-08-02

第4讲 .pdf

概率论 频率与概率

2019-08-25

搭建本地yum源

搭建本地yum源

2019-02-01

hadoop2.5.2学习13-MR之新浪微博

hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介

2017-03-19

天猫推荐测试数据

hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现01

2017-03-04

java程序员必知的8大排序

8大排序

2016-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除