Spark 集群进行 ETL 的架构介绍

最新推荐文章于 2025-05-07 14:30:23 发布

大数据AI

最新推荐文章于 2025-05-07 14:30:23 发布

阅读量1.2k

点赞数 10

分类专栏： Big Data 文章标签： spark etl 架构大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011026329/article/details/79183336

版权

Big Data 专栏收录该内容

73 篇文章

订阅专栏

一什么是ETL

ETL（extract提取、transform转换、load加载）。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后，进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘提供决策支持的数据。

二使用Spark开发ETL系统的优势

由于海量的日志记录、交易记录，单机进行ETL变得越来越困难。搭建一套具备大规模数据处理能力的ETL系统成为大数据分析系统中不可或缺的环节。由于Spark在大数据处理能力上的高效率、及其简单易用的API、同时对各种数据库的访问都实现了良好的支持，使用Spark来开发搭建ETL成为一个不错的选择。
另外Spark DataFrame提供了详细的数据结构信息(即schema)，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。同时SPark DataFrame提供了丰富的操作API且可以直接基于DataFrame进行SQL操作，成为了ETL存储中间数据的首选。
部署简单，只需要使用spark-submit命令提交worker即可。

三相关架构和功能实现

在此只介绍一些常用且使用spark开发容易实现的功能。

3.1 数据清洗、转换：

数据合并：多表关联合并，字段合并
数据拆分：按一定规则进行数据拆分
数据解析提取：利用Spark的UDF、UDAF、UDTF等特性，自定义数据语义解析函数。

3.2 数据加载

增量ETL：

使用时间戳作为增量字段，减小每次ETL的数据规模、提高数据ETL的效率。
使用自增序列值做增量ETL，系统自动记录上次ETL过程的截至序列值作为下一次ETL的增量序列值进行ETL。

全量ETL：

删除目标表数据，将源数据全部插入，同时对原始目标表数据备份。

3.3 异常处理

在ETL的过程中，必不可少的要面临数据异常而导致的ETL过程失败的问题，处理办法：

对于网络中断等外部原因造成的异常，设定尝试次数，
日志输出，记录ETL错误过程、执行的错误信息，Web方式查询及邮件通知。

四相关组件、模块介绍

这里写图片描述

ETL_ON_SPARKEngine作为整个ETL的核心，主要承担一下几方面的职责：
1、负责从Hbase中读取配置库的配置数据，并制定任务调度计划。

2、解析数据获取语句，从数据源读取数据，以Spark DataFrame的形式暂存在Spark集群的内存中。从MySQL、Hive等结构化的数据库中读取数据比较好理解，就是一条Sql语句，最多在使用几个自定义函数。从hbase，MongoDB等半结构化的数据库中获取数据时，由于原始数据的字段具有层次关系、或者以Json等格式存在，需要进行字段的拆分、Json数据展平等过程。

3、对源Spark DataFrame进行字段转换与字段映射，生成一个新的Spark DataFrame。在这一步主要进行字段名称转换、字段类型转换、字段合并重组等操作。

4、将新的Spark DataFrame写入目标数据源中。

博客等级

码龄12年

328
原创

2091
点赞

2210
收藏

1749
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 机器学习中的聚类艺术：探索数据的隐秘之美

下一篇：: K-Means算法详解与实战应用.

最新评论

Spark2.x 入门：协同过滤算法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Spark 集群进行 ETL 的架构介绍
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
【机器学习实战】用sklearn玩转随机森林，分类准确率提升秘籍！
Qiuner: 博客的每一个细节都处理得非常到位，这让我感受到了作者的用心和专注。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~
【机器学习实战】用sklearn玩转随机森林，分类准确率提升秘籍！
鸽鸽程序猿: 这篇文章实在是太棒了！内容丰富，论述清晰，代码实例更是琳琅满目，让人阅读起来津津有味。博主的专业素养和用心程度从中可见一斑，无疑为读者提供了一笔宝贵的知识财富。文章从基础概念出发，由浅入深地阐述了编程的核心思想。在阅读过程中，我感受到了博主对编程的热爱和敬业精神，他/她用通俗易懂的语言，将复杂的编程知识讲解得淋漓尽致。这使得读者在阅读过程中既能够掌握知识，又能够保持兴趣。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~
【机器学习实战】用sklearn玩转随机森林，分类准确率提升秘籍！
忆愿: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文也欢迎您来逛逛我的博客哦

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据AI 你的鼓励将是我创作的最大动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。