- 博客(102)
- 资源 (4)
- 收藏
- 关注

原创 Fink CDC数据同步(六)数据入湖Hudi
Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。当开启change log mode,保留的最大commit数量。上面的查询方式是非流式查询,流式查询会生成一个flink作业,并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表,此时会生成一个flink任务。此时,执行select 语句就会生成一个flink 作业。,如果想消费所有数据,设置值为earliest。
2024-02-04 12:41:48
1932

原创 Fink CDC数据同步(五)Kafka数据同步Hive
通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。
2024-02-04 12:26:44
1463

原创 Fink CDC数据同步(四)Mysql数据同步到Kafka
这里指定的Kafka topic会自动创建,也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。
2024-02-04 12:24:27
2612
4

原创 Fink CDC数据同步(三)Flink集成Hive
Flink利用Hive的MetaStore作为持久化的Catalog,我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成,如同使用SparkSQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。
2024-02-03 22:38:29
1774

原创 Fink CDC数据同步(二)MySQL数据同步
和旧的快照读相比有以下优点:1. 并行读取 2. 支持checkpoint 3. 不需要锁表;当需要并行读取时,server-id需要设置数值范围,如5400-5408。当开启scan.incremental.snapshot.enabled时,建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。
2024-02-03 22:28:49
2432

原创 Fink CDC数据同步(一)环境部署
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器,基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。
2024-02-03 22:21:57
4416

原创 数据质量之评估维度及检测项
数据质量之评估维度及检测项数据质量直接影响数据的价值,这里主要介绍一些业界主流的六大评估维度,分别是完整性,唯一性(独特性),一致性,准确性,有效性,时效性。以及我们在设计DQC的时候可以用什么检查规则取检测。一、完整性数据的每一项都应被记录,这样数据才完整。我们可以通过对字段是否为空或者是否为空字符串进行检测数据的完整性-- 空值检测select count(1) as cnt from ${db}.${table} where (${filter}) and (${field} is nul
2021-09-29 20:14:21
4613
原创 CDGA数据治理工程师考试部分真题二
CDGA(Certified Data Governance Associate,数据治理工程师)是国际数据管理协会(DAMA)中国分会推出的权威认证,是数据治理领域的专业证书。D. 组织中的每个人都应在保护组织的未来方面发挥作用。B. 文件管理包括文件和档案的整个生命周期控制。B. 确保结构化和非结构化数据之间的整合能力。A. 确保高效采集和使用非结构化数据和信息。C. XML整合结构化数据到非结构化数据库。B. 存储行为不包括整合数据以提升价值。A. 数据仓库存储来自其他系统的数据。
2025-04-16 11:19:58
850
原创 CDGA数据治理工程师考试部分真题一
A. 架构是构建一个系统的艺术和科学,以及在此过程中形成的成果系统本身。B. 架构是对组件要素有组织的设计,旨在优化整个结果或系统的功能、性能、可行性、成本和用户体验C. 数据架构包括不同层级的模型、定义、数据流,这些通常被称为数据架构的构件D. 数据架构活动,包括影响企业数据架构的不同角色之间的协作、思维方式和技能。
2025-04-16 11:02:49
744
原创 CDGA考点
是国际数据管理协会(DAMA)中国分会推出的权威认证,旨在培养数据治理领域的专业人才。考试教材《DAMA数据管理知识体系指南(第二版修订版)》100道单选题,100分钟答题时间,60分及格。以下是教材各章节的考点。
2025-04-16 10:10:13
638
原创 DAMA的CDGA、CDGP认证
CDGA(数据治理工程师)和CDGP(数据治理专家)是DAMA国际与中国分会联合推出的权威认证,旨在培养数据治理领域的专业人才。CDGA侧重基础理论与实践技能,CDGP则聚焦高阶战略与复杂问题解决能力。2025年第二季度起,考试全面启用新版教材《DAMA数据管理知识体系指南(第二版修订版)》,内容更贴合行业前沿需求。
2025-04-15 11:39:16
418
1
原创 Hive SQL业务场景:求平台最高峰同时直播人数
现有某直播平台各主播登陆明细表:主播ID,上线时间,下线时间。现在需要求出该直播平台最高峰期同时在线主播人数。
2024-10-11 18:39:22
315
原创 Hive SQL业务场景:连续5天涨幅超过5%股票
现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是:股票代码(stock_code),日期(trade_date),收盘价格(closing_price)。请找出满足连续5天以上(含)每天上涨超过5%的股票,并给出连续满足天数及开始和结束日期。备注:不考虑停牌或其他情况,仅仅关注每天连续5天上涨超过5%的股票。
2024-09-27 19:06:39
919
原创 数据管理能力成熟度评估模型DCMM
DCMM(Data Management Capability Maturity Assessment Model)数据管理能力成熟度评估模型是由中国国家标准化管理委员会于2018年3月15日发布,于2018年10月1日起实施的我国首个数据管理领域国家标准。该标准把组织内部数据能力划分为八个重要组成部分,描述了每个组成部分的定义、功能、目标和标准。本标准适用于信息系统的建设单位,应用单位等进行数据管理时候的规划,设计和评估。也可以作为针对信息系统建设状况的指导、监督和检查的依据。
2024-09-04 17:02:53
1307
原创 标签画像体系应用实践
标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤,可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出,标签画像体系应用能够帮助企业更好地了解用户需求,提供个性化的服务,提升竞争力和用户满意度。
2024-03-14 11:34:57
1271
原创 【最全最经典SQL题】五 产生连续数值
构造两个临时表 一个4一个6,通过笛卡尔积可以构造24行记录扩展:生产过去2年的年月字段FROM () xcxc。
2024-03-12 15:47:41
836
原创 【最全最经典SQL题】四 窗口大小控制
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........
2024-03-12 14:58:26
494
原创 【最全最经典SQL题】三 累计求值
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........
2024-03-12 09:56:24
574
原创 【最全最经典SQL题】二 排名取它值
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码,大家动动小手指就能看到效果以便理解,为了方便大部分同学实操,默认采用MySQL的SQL,如Hive有区别的会注明一下。
2024-03-11 14:32:07
547
1
原创 【最全最经典SQL题】一 行列转换
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新,内容如下:【最全最经典SQL题】一 行列转换【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........
2024-03-11 13:22:14
815
原创 dolphinscheduler海豚调度(五)seatunnel案例
seatunnel作为新一代流行的数据集成工具,其功能非常强大且简单易用,今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。
2024-03-06 18:51:49
4721
3
原创 Hive SQL 开发指南(三)优化及常见异常
使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤:1、采样log表,哪些user_id比较倾斜,得到一个结果表tmp1。由于对计算框架来说,所有的数据过来,他都是不知道数据分布情况的,所以采样是并不可少的。2、数据的分布符合社会学统计规则,贫富不均。倾斜的key不会太多,就像一个社会的富人不多,奇特的人不多一样。
2024-03-05 15:06:43
2097
1
原创 Hive SQL 开发指南(二)使用(DDL、DML,DQL)
建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)LIKE 允许用户复制现有的表结构,但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。
2024-03-01 14:18:50
1657
原创 Hive SQL 开发指南(一)数据类型及函数
在大数据领域,Hive SQL 是一种常用的查询语言,用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识,并提供一些规范化的开发指南,帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南(一)数据类型及函数Hive SQL 开发指南(二)使用(DDL、DML,DQL)Hive SQL 开发指南(三)优化及常见异常。
2024-03-01 10:54:14
1782
转载 当我们聊数据质量的时候,我们在聊些什么?
随着大数据行业的深入发展,数据质量越来越成为一个绕不开的话题,那当大家在聊数据质量的时候,通常会聊什么呢?从什么是数据质量开始。
2024-02-29 10:18:56
130
原创 dolphinscheduler海豚调度(四)钉钉告警
在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。今天,让我们来学习DolphinScheduler中的另一个重要功能:钉钉告警。
2024-02-28 10:19:13
1585
原创 dolphinscheduler海豚调度(三)SQL任务
在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和模块,安装部署和元数据切换,以及Shell任务的实践。今天,让我们来深入探讨DolphinScheduler中另一种常见的任务类型:SQL任务。SQL任务是DolphinScheduler中非常重要的一种任务类型,它允许用户在调度系统中运行SQL语句,通常用于数据处理、数据分析等场景。下面我分别以为MySQL和Hive为例,详细介绍如何在DolphinScheduler中创建和配置SQL任务。
2024-02-27 17:04:58
2862
4
原创 dolphinscheduler海豚调度(二)快速运行第一个项目
在点击运行之后,在启动前请先设置参数的界面勾选是否是补数,并选中对应的补数方式和日期即可。注意:上线状态的工作流不能编辑,如果需要编辑则需要将该工作流下线。好了,第一个的dolphinScheduler 任务就完成了。进入对应的工作流,选中你要单独运行的任务,右键点击运行即可。第二步,进入刚才创建好的项目,工作流定义,创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外,如果想运行单一任务该如果操作?确定,保存,这样一个任务就完成了。在工作流定义中也可以设置定时。第一步,项目管理,创建项目。
2024-02-27 16:26:46
734
转载 谈谈数据基础设施
刘烈宏也呼吁,希望高校、科研院所、产业链各界,在数据创新、融合、变革的时代浪潮下,共同推动数据基础设施概念理论、架构体系、核心技术、标准规范不断演进迭代,携手并进,推动数据基础设施建设,完善数据基础制度,激活数据要素价值,谱写数字经济发展新篇章,共同为我国数据事业发展贡献力量。,刘烈宏认为,数据基础设施利用云计算、边缘计算、分布式计算、大数据处理、AI分析、绿色低碳等技术,为参与方提供高效便捷、安全可靠的数据要素存储、计算、分析能力,有效推动数据处理环节实现高效率、低成本、高智能。
2024-02-27 15:28:37
200
原创 数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC
SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处理过程中的数据同步问题,支持实时数据处理和批量数据处理,提供了丰富的数据源连接器,包括Kafka、HDFS、JDBC等。DataX是阿里巴巴开源的一个异构数据源离线同步工具,主要用于在各种异构数据源之间高效的进行数据同步,支持包括MySQL、Oracle、HDFS、Hive等在内的多种数据源。Sqoop是一款开源的工具,用于在Hadoop和关系型数据库之间高效地传输数据。
2024-02-07 22:49:31
6748
2
原创 Oracle11g安装配置详细教程
Oracle11g安装配置详细教程# #Oracle#Oracle Database 11g是一款广泛使用的关系型数据库管理系统,它为企业级的应用提供了强大的数据管理功能。本文将详细介绍如何在Windows环境下安装和配置Oracle 11g。
2024-02-07 14:39:06
1439
原创 dolphinscheduler海豚调度(一)简介&快速体验
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。
2024-02-06 23:59:13
2359
原创 seatunnel数据集成(四)转换器使用
seatunnel除了丰富的连接器类型,其转换器也能够让数据转换更加简单,包括Copy,Filter,FieldSelector,FielMapper,DATa Filter,TypeConverter,Replace,Split,FilterRowKind,SQL,SQL Functions等。
2024-02-06 00:23:44
3559
1
原创 seatunnel数据集成(三)多表同步
seatunnel除了单表之间的数据同步之外,也支持单表同步到多表,多表同步到单表,以及多表同步到多表
2024-02-05 23:59:01
4754
2
原创 seatunnel数据集成(二)数据同步
如果用的是Spark/Flink引擎,需要Spark/Flink已经集成好了Hive。放到 $SEATUNNEL_HOME/lib/ 目录下。如果用SeaTunnel Zeta引擎,需要将。指定作业模式为:STREAMING。需求:根据创建时间,每天增量抽取。
2024-02-05 23:54:05
3075
原创 seatunnel数据集成(一)简介与安装
在Apache的仓库下载相应的connector,下载时每个jar包在不同的路径下面,放到/SeaTunnel-2.3.1/connectors/SeaTunnel目录下。--check 检查config语法是否合法。--variable 应用配置里的变量赋值。下载完毕之后上传到服务器上面并解压。配置安装SeaTunnel的插件。--config 应用配置的路径。下载对应的connector。安装SeaTunnel。
2024-02-05 23:38:53
1564
原创 解决datart报错:Invalid database configuration. Datart is running in demo mode
再次启动,就不会报无效数据库配置了,在预先建好的datart数据库中,随着程序的启动而自动建表。原因是缺少一个变量 config。
2023-09-28 17:47:43
2687
构建企业级数仓-Hadoop可行性分析报告.docx
2020-04-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人