
Spark
文章平均质量分 88
涉及Spark技术的方方面面
数据大包哥
这个作者很懒,什么都没留下…
展开
-
Spark 3.0核心新特性解析与行业应用展望
作为Spark 3.0最具突破性的优化,AQE通过,解决了传统静态优化的局限性。原创 2025-03-09 00:32:57 · 723 阅读 · 0 评论 -
Spark数据倾斜深度解析与实战解决方案
数据倾斜是分布式计算中因导致的性能瓶颈现象。当某些Key对应的数据量远超其他Key时,这些"热点Key"所在的Task会消耗80%以上的计算时间,成为整个作业的。原创 2025-03-08 23:55:38 · 1455 阅读 · 0 评论 -
Spark Shuffle原理浅解析
Spark Shuffle的设计在性能与扩展性之间不断演进,从Hash Shuffle到Sort Shuffle的转变体现了对大规模数据处理场景的适应。理解其原理与瓶颈后,通过参数调优、代码优化及监控手段,可显著提升作业效率。未来,随着Tungsten引擎的进一步优化,Shuffle的性能有望在内存管理和序列化层面实现更大突破。其核心目的是将相同Key的数据分发到同一个节点,以便进行聚合或连接操作。是Spark中跨节点数据重分区的过程,通常由。原创 2025-03-07 23:54:04 · 1188 阅读 · 0 评论 -
Apache Spark中的依赖关系与任务调度机制解析
在Spark的分布式计算框架中,RDD(弹性分布式数据集)的依赖关系是理解任务调度、性能优化及容错机制的关键。宽依赖(Wide Dependency)与窄依赖(Narrow Dependency)作为两种核心依赖类型,直接影响Stage划分、Shuffle操作及容错策略。本文将从定义、特征、作用、常见算子分类、典型场景与最佳实践展开分析。在Spark中,RDD(弹性分布式数据集)的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Wide Dependency),它们直接影响任务执行效原创 2025-02-28 22:51:11 · 1288 阅读 · 0 评论 -
Spark基础篇 RDD、DataFrame与DataSet的关系、适用场景与演进趋势
数据特征/任务类型推荐抽象典型案例关键优势高度结构化数据DataFrameJSON日志分析、SQL查询自动模式发现,Catalyst优化非结构化数据RDD图像处理、文本流解析支持任意数据格式,细粒度控制类型敏感操作(Scala)Dataset金融交易数据校验编译时类型检查,减少运行时错误ETL(结构化转换)DataFrame表关联清洗、列式计算内置优化器,丰富结构化APIETL(复杂格式处理)RDD多层XML解析、不规则日志提取灵活的自定义转换逻辑机器学习(特征工程)原创 2025-03-01 01:15:15 · 1403 阅读 · 0 评论 -
Repartition与Coalesce区别及源码解析
源码版本基于Spark 3.3.0,实现细节可能随版本调整。原创 2025-02-26 19:58:15 · 850 阅读 · 0 评论 -
Spark map与mapPartitions算子源码级深度解析
实现特征fT => U。原创 2025-02-26 19:53:11 · 811 阅读 · 0 评论 -
Spark RDD持久化机制深度解析
Spark RDD持久化(Persistence)是优化计算性能的核心技术,通过将中间结果存储在内存或磁盘中实现数据复用。count()原创 2025-02-26 19:48:51 · 608 阅读 · 0 评论 -
Spark技术系列(三):Spark算子全解析——从基础使用到高阶优化
转换算子Transformations。行动算子Actions。Key-Value操作。原创 2025-02-26 19:24:01 · 1166 阅读 · 0 评论 -
Spark基础篇-Application、Job、Stage 和 Task
层级结构每个层级均为 1:N 的包含关系。执行流程启动后,Driver 解析代码中的Action生成Job。DAGScheduler 根据宽依赖将 Job 拆分为Stage,按依赖顺序调度。TaskScheduler 将Stage转换为TaskSet,分发到 Executor 执行。依赖与并行同一 Stage 内的 Task 可并行(窄依赖)。不同 Stage 间需等待前序 Stage 完成(宽依赖)。原创 2025-02-26 18:38:06 · 752 阅读 · 0 评论 -
Spark技术系列(二):深入理解RDD编程模型——从原理到生产实践
在现有RDD代码库迁移到DataFrame时,如何保持原有逻辑的同时利用新引擎优势?父RDD每个分区最多被子RDD一个分区使用。父RDD每个分区可能被子RDD多个分区使用。原创 2025-02-26 18:34:46 · 965 阅读 · 0 评论 -
Spark技术系列(一):初识Apache Spark——大数据处理的统一分析引擎
Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度 器,叫作独立调度器。,负责资源的动态分配与任务调度。原创 2025-02-26 18:23:04 · 1410 阅读 · 0 评论