基本数仓建设(含最详细步骤)

最新推荐文章于 2025-04-07 17:12:17 发布

仙道Bob

最新推荐文章于 2025-04-07 17:12:17 发布

阅读量6.1k

点赞数

分类专栏：数据仓库 # DataX 文章标签：数仓 DataX

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jsbylibo/article/details/97815468

版权

DataX 同时被 2 个专栏收录

3 篇文章

订阅专栏

1 篇文章

订阅专栏

最简单数仓建设，原理：将所有源数据抽取到同一个地方，建模，加工处理。

需求：将不同mysql库数据，抽取到同一个pg库，对抽取数据进行加工，生成报表。如：在B机器上抽取A机器上数据到C机器上。

使用工具：DataX

步骤：

B机器上安装java，python，安装DataX
详细步骤参考：DataX使用
获取源数据相关参数
生成固定格式文件：schema|table|target_table|pk_column|columns|add_column
参考mysql参数获取：查询Mysql表名、主键、列名
参考postgresql参数获取：查看Postgresql表名、主键、列名
批量生成json文件
写一个简单的java文件，读取步骤2生成的文件，并按DataX要求生成对应格式的json文件。
详细参考：DataX批量生成json文件(简单java代码)
通用执行sh脚本
参考:
批量生成目标库建表语句
结合excel用起来比较方便，这事本该dba去做的，因为涉及表太多，dba不肯搞，只能自己搞个工具生成建表语句了。
参考详细步骤：Mysql表结构迁移到Postgresql
调度系统部署
B机器上安装airflow，并装上对应的调度资料库
配置调度任务
参考网上
数据加工处理
参考：阿里OneData体系
生成报表目标表
接入报表系统

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。