tomayato-CSDN博客

原创 CentOS7与JDK8虚拟机安装与配置指南

在大数据开发环境中，搭建一个稳定可靠的虚拟机环境是进行后续Hadoop、Spark等分布式框架部署的基础。本文将详细介绍如何在VMware中安装和配置CentOS7虚拟机，并完成JDK8的环境搭建。

2025-06-03 20:30:00 251

原创 SparkSQL实战案例与系统集成（3）

基础篇：DataFrame核心概念、基本操作和数据类型高级篇：窗口函数、性能优化和扩展功能实战篇：典型应用案例、系统集成和生产实践每篇文章都包含：详细的理论讲解丰富的代码示例最佳实践建议常见问题解决方案希望本专栏能帮助您全面掌握SparkSQL，在实际工作中高效处理大规模结构化数据！如需深入了解某个专题，可以参考每篇文章末尾的扩展阅读建议。

2025-05-27 12:49:39 380

原创 SparkSQL高级特性与性能优化（2）

【代码】SparkSQL高级特性与性能优化（2）

2025-05-27 12:47:57 258

原创 SparkSQL核心概念与基础操作详解

DataFrame是SparkSQL的核心数据结构，具有以下核心特征：分布式行集合，每行具有相同的schema类似于关系型数据库中的表或Pandas的DataFrame自动优化执行计划支持从KB到PB级的数据处理。

2025-05-27 12:46:29 723

原创 PySpark开发环境搭建全指南

确保PySpark版本与Spark集群版本一致。新建项目时选择Python 3.6解释器。：Python与Java互操作的桥梁库。：确认已正确配置Python解释器路径。：指定版本与Spark环境一致。：检查Python环境是否匹配。：PyCharm中必须使用。启动后浏览器会自动打开。

2025-05-27 12:31:36 280

原创 Kafka安装与测试指南

通过以上步骤，我们完成了Kafka的安装、配置和基本测试，以及使用Netcat工具进行简单的网络通信测试。这些基础操作对于后续使用Kafka进行数据流处理非常重要。测试时在生产者终端输入消息，消费者终端会实时显示收到的消息。测试时，两个终端可以互相发送消息，实现双向交互。进程（默认使用9092端口）和。

2025-05-27 12:20:37 127

这些操作涵盖了 Spark RDD 的核心数据处理功能，包括：数据去重与合并（distinct、union、intersection、subtract）分组与聚合（groupBy、groupByKey、reduceByKey）排序与提取（sortByKey、keys、values）数据收集与遍历（collect、take、first、foreach）统计计算（count、max、min、sum、mean）经典应用（词频统计）每个操作均针对特定数据处理需求设计，适用于大规模分布式计算场景。

2025-04-26 01:09:09 535

原创 Hadoop 伪分布式集群环境搭建(4):安装配置Python3.6与PySpark

已搭建Hadoop伪分布式集群，HDFS服务正常运行（需提前验证和：Ubuntu 20.04默认预装Python3.8，需保留系统原有版本，避免影响依赖Python3.8的其他组件（如系统工具或Hadoop生态工具）。通过查看软链接，确认python3指向python3.8。从输出的文件列表可以看出，python3实际是一个软链接文件，指向python3.8执行程序。我们可以分别运行python3和python3.8命令，以确认它们是否为同一个：Python命令不可用。

2025-04-23 01:44:58 1080

原创 Hadoop 伪分布式集群环境搭建(3):Spark单机环境搭建与交互式开发

本文档详细介绍如何在 Linux 系统上搭建 Spark 单机运行环境，并进行基本功能测试，包括：Spark 的安装与配置环境变量的设置SparkShell 交互式编程环境的使用验证 Spark 读取本地文件及 HDFS 文件的能力。

2025-04-23 01:11:22 445

原创 Hadoop 伪分布式集群环境搭建(2): HDFS 与 YARN 环境搭建

HDFS（Hadoop Distributed File System）是Hadoop的核心存储组件，需正确配置才能运行。待Spark环境搭建完成后，可提交Spark任务至YARN运行。关闭内存检查（虚拟机资源有限，避免任务因资源不足被拒绝）。：虚拟机环境下，适当调低YARN内存要求以避免任务失败。），用于存储Hadoop运行时产生的临时数据。：重复格式化需先删除原有数据目录，否则会失败。：仅首次启动前执行，重复操作需先清理数据目录。，需单独设置，确保其能正确调用JDK。，确保YARN能正确调用JDK。

2025-04-22 19:30:00 989