大数据_苡~-CSDN博客

原创 Fink CDC数据同步（六）数据入湖Hudi

Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。当开启change log mode，保留的最大commit数量。上面的查询方式是非流式查询，流式查询会生成一个flink作业，并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表，此时会生成一个flink任务。此时，执行select 语句就会生成一个flink 作业。，如果想消费所有数据，设置值为earliest。

2024-02-04 12:41:48 1932

原创 Fink CDC数据同步（五）Kafka数据同步Hive

通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。

2024-02-04 12:26:44 1463

原创 Fink CDC数据同步（四）Mysql数据同步到Kafka

这里指定的Kafka topic会自动创建，也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。

2024-02-04 12:24:27 2612 4

原创 Fink CDC数据同步（三）Flink集成Hive

Flink利用Hive的MetaStore作为持久化的Catalog，我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成，如同使用SparkSQL或者Impala操作Hive中的数据一样，我们可以使用Flink直接读写Hive中的表。

2024-02-03 22:38:29 1774

原创 Fink CDC数据同步（二）MySQL数据同步

和旧的快照读相比有以下优点：1. 并行读取 2. 支持checkpoint 3. 不需要锁表；当需要并行读取时，server-id需要设置数值范围，如5400-5408。当开启scan.incremental.snapshot.enabled时，建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。

2024-02-03 22:28:49 2432

原创 Fink CDC数据同步（一）环境部署

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器，基于数据库日志的 Change Data Caputre 技术，实现了全量和增量的一体化读取能力，并借助 Flink 优秀的管道能力和丰富的上下游生态，支持捕获多种数据库的变更，并将这些变更实时同步到下游存储。

2024-02-03 22:21:57 4416

原创 ClickHouse安装部署【非常详细】

本文非常详细地记录了clickhouse安装部署的过程，仅供参考~

2022-01-07 18:18:14 52507 10

原创数据质量之评估维度及检测项

数据质量之评估维度及检测项数据质量直接影响数据的价值，这里主要介绍一些业界主流的六大评估维度，分别是完整性，唯一性（独特性），一致性，准确性，有效性，时效性。以及我们在设计DQC的时候可以用什么检查规则取检测。一、完整性数据的每一项都应被记录，这样数据才完整。我们可以通过对字段是否为空或者是否为空字符串进行检测数据的完整性-- 空值检测select count(1) as cnt from ${db}.${table} where (${filter}) and (${field} is nul

2021-09-29 20:14:21 4613

原创 CDGA数据治理工程师考试部分真题二

CDGA（Certified Data Governance Associate，数据治理工程师）是国际数据管理协会（DAMA）中国分会推出的权威认证，是数据治理领域的专业证书。D. 组织中的每个人都应在保护组织的未来方面发挥作用。B. 文件管理包括文件和档案的整个生命周期控制。B. 确保结构化和非结构化数据之间的整合能力。A. 确保高效采集和使用非结构化数据和信息。C. XML整合结构化数据到非结构化数据库。B. 存储行为不包括整合数据以提升价值。A. 数据仓库存储来自其他系统的数据。

2025-04-16 11:19:58 850

原创 CDGA数据治理工程师考试部分真题一

A. 架构是构建一个系统的艺术和科学，以及在此过程中形成的成果系统本身。B. 架构是对组件要素有组织的设计，旨在优化整个结果或系统的功能、性能、可行性、成本和用户体验C. 数据架构包括不同层级的模型、定义、数据流，这些通常被称为数据架构的构件D. 数据架构活动，包括影响企业数据架构的不同角色之间的协作、思维方式和技能。

2025-04-16 11:02:49 744

原创 CDGA考点

是国际数据管理协会（DAMA）中国分会推出的权威认证，旨在培养数据治理领域的专业人才。考试教材《DAMA数据管理知识体系指南（第二版修订版）》100道单选题，100分钟答题时间，60分及格。以下是教材各章节的考点。

2025-04-16 10:10:13 638

原创 DAMA的CDGA、CDGP认证

CDGA（数据治理工程师）和CDGP（数据治理专家）是DAMA国际与中国分会联合推出的权威认证，旨在培养数据治理领域的专业人才。CDGA侧重基础理论与实践技能，CDGP则聚焦高阶战略与复杂问题解决能力。2025年第二季度起，考试全面启用新版教材《DAMA数据管理知识体系指南（第二版修订版）》，内容更贴合行业前沿需求。

2025-04-15 11:39:16 418 1

原创 Hive SQL业务场景：求平台最高峰同时直播人数

现有某直播平台各主播登陆明细表：主播ID，上线时间，下线时间。现在需要求出该直播平台最高峰期同时在线主播人数。

2024-10-11 18:39:22 315

原创 Hive SQL业务场景：连续5天涨幅超过5%股票

现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是：股票代码(stock_code),日期(trade_date)，收盘价格(closing_price)。请找出满足连续5天以上（含）每天上涨超过5%的股票，并给出连续满足天数及开始和结束日期。备注：不考虑停牌或其他情况，仅仅关注每天连续5天上涨超过5%的股票。

2024-09-27 19:06:39 919

原创数据管理能力成熟度评估模型DCMM

DCMM（Data Management Capability Maturity Assessment Model）数据管理能力成熟度评估模型是由中国国家标准化管理委员会于2018年3月15日发布，于2018年10月1日起实施的我国首个数据管理领域国家标准。该标准把组织内部数据能力划分为八个重要组成部分，描述了每个组成部分的定义、功能、目标和标准。本标准适用于信息系统的建设单位，应用单位等进行数据管理时候的规划，设计和评估。也可以作为针对信息系统建设状况的指导、监督和检查的依据。

2024-09-04 17:02:53 1307

原创标签画像体系应用实践

标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤，可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出，标签画像体系应用能够帮助企业更好地了解用户需求，提供个性化的服务，提升竞争力和用户满意度。

2024-03-14 11:34:57 1271

原创【最全最经典SQL题】五产生连续数值

构造两个临时表一个4一个6，通过笛卡尔积可以构造24行记录扩展：生产过去2年的年月字段FROM () xcxc。

2024-03-12 15:47:41 836

原创【最全最经典SQL题】四窗口大小控制

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四窗口大小控制【最全最经典SQL题】五数据合并与拆分【最全最经典SQL题】六数据扩充与收缩【最全最经典SQL题】七容器【最全最经典SQL题】八时间序列【最全最经典SQL题】九非等值连接更新中........

2024-03-12 14:58:26 494

原创【最全最经典SQL题】三累计求值

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制【最全最经典SQL题】五数据合并与拆分【最全最经典SQL题】六数据扩充与收缩【最全最经典SQL题】七容器【最全最经典SQL题】八时间序列【最全最经典SQL题】九非等值连接更新中........

2024-03-12 09:56:24 574

原创【最全最经典SQL题】二排名取它值

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二排名取它值【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码，大家动动小手指就能看到效果以便理解，为了方便大部分同学实操，默认采用MySQL的SQL，如Hive有区别的会注明一下。

2024-03-11 14:32:07 547 1

原创【最全最经典SQL题】一行列转换

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新，内容如下：【最全最经典SQL题】一行列转换【最全最经典SQL题】二排名取它值【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制更新中........

2024-03-11 13:22:14 815

原创 dolphinscheduler海豚调度（五）seatunnel案例

seatunnel作为新一代流行的数据集成工具，其功能非常强大且简单易用，今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。

2024-03-06 18:51:49 4721 3

原创 Hive SQL 开发指南（三）优化及常见异常

使map的输出数据更均匀的分布到reduce中去，是我们的最终目标。由于Hash算法的局限性，按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤：1、采样log表，哪些user_id比较倾斜，得到一个结果表tmp1。由于对计算框架来说，所有的数据过来，他都是不知道数据分布情况的，所以采样是并不可少的。2、数据的分布符合社会学统计规则，贫富不均。倾斜的key不会太多，就像一个社会的富人不多，奇特的人不多一样。

2024-03-05 15:06:43 2097 1

原创 MySQL 新增用户及权限分配

2024-03-05 12:08:08 1947

原创 Hive SQL 开发指南（二）使用（DDL、DML，DQL）

建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）LIKE 允许用户复制现有的表结构，但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。

2024-03-01 14:18:50 1657

原创 Hive SQL 开发指南（一）数据类型及函数

在大数据领域，Hive SQL 是一种常用的查询语言，用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识，并提供一些规范化的开发指南，帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南（一）数据类型及函数Hive SQL 开发指南（二）使用（DDL、DML，DQL）Hive SQL 开发指南（三）优化及常见异常。

2024-03-01 10:54:14 1782

转载当我们聊数据质量的时候，我们在聊些什么？

随着大数据行业的深入发展，数据质量越来越成为一个绕不开的话题，那当大家在聊数据质量的时候，通常会聊什么呢？从什么是数据质量开始。

2024-02-29 10:18:56 130

原创数仓模型设计方法论

规范定义主要定义派生指标体系。包括原子指标、修饰词修饰词时间周期和派生指标。

2024-02-28 14:49:37 2008

原创 dolphinscheduler海豚调度（四）钉钉告警

在之前的博文中，我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程，以及Shell任务和SQL任务的实践。今天，让我们来学习DolphinScheduler中的另一个重要功能：钉钉告警。

2024-02-28 10:19:13 1585

原创 dolphinscheduler海豚调度（三）SQL任务

在之前的博文中，我们已经介绍了DolphinScheduler海豚调度的基本概念和模块，安装部署和元数据切换，以及Shell任务的实践。今天，让我们来深入探讨DolphinScheduler中另一种常见的任务类型：SQL任务。SQL任务是DolphinScheduler中非常重要的一种任务类型，它允许用户在调度系统中运行SQL语句，通常用于数据处理、数据分析等场景。下面我分别以为MySQL和Hive为例，详细介绍如何在DolphinScheduler中创建和配置SQL任务。

2024-02-27 17:04:58 2862 4

原创 dolphinscheduler海豚调度（二）快速运行第一个项目

在点击运行之后，在启动前请先设置参数的界面勾选是否是补数，并选中对应的补数方式和日期即可。注意：上线状态的工作流不能编辑，如果需要编辑则需要将该工作流下线。好了，第一个的dolphinScheduler 任务就完成了。进入对应的工作流，选中你要单独运行的任务，右键点击运行即可。第二步，进入刚才创建好的项目，工作流定义，创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外，如果想运行单一任务该如果操作？确定，保存，这样一个任务就完成了。在工作流定义中也可以设置定时。第一步，项目管理，创建项目。

2024-02-27 16:26:46 734

DDD领域驱动设计day03.pdf

构建企业级数仓-Hadoop可行性分析报告.docx

DDD领域驱动设计day01.pdf

DDD领域驱动设计day02.pdf

空空如也