- 博客(16)
- 收藏
- 关注
原创 CentOS7与JDK8虚拟机安装与配置指南
在大数据开发环境中,搭建一个稳定可靠的虚拟机环境是进行后续Hadoop、Spark等分布式框架部署的基础。本文将详细介绍如何在VMware中安装和配置CentOS7虚拟机,并完成JDK8的环境搭建。
2025-06-03 20:30:00
251
原创 SparkSQL实战案例与系统集成(3)
基础篇:DataFrame核心概念、基本操作和数据类型高级篇:窗口函数、性能优化和扩展功能实战篇:典型应用案例、系统集成和生产实践每篇文章都包含:详细的理论讲解丰富的代码示例最佳实践建议常见问题解决方案希望本专栏能帮助您全面掌握SparkSQL,在实际工作中高效处理大规模结构化数据!如需深入了解某个专题,可以参考每篇文章末尾的扩展阅读建议。
2025-05-27 12:49:39
380
原创 SparkSQL核心概念与基础操作详解
DataFrame是SparkSQL的核心数据结构,具有以下核心特征:分布式行集合,每行具有相同的schema类似于关系型数据库中的表或Pandas的DataFrame自动优化执行计划支持从KB到PB级的数据处理。
2025-05-27 12:46:29
723
原创 PySpark开发环境搭建全指南
确保PySpark版本与Spark集群版本一致。新建项目时选择Python 3.6解释器。:Python与Java互操作的桥梁库。:确认已正确配置Python解释器路径。:指定版本与Spark环境一致。:检查Python环境是否匹配。:PyCharm中必须使用。启动后浏览器会自动打开。
2025-05-27 12:31:36
280
原创 Kafka安装与测试指南
通过以上步骤,我们完成了Kafka的安装、配置和基本测试,以及使用Netcat工具进行简单的网络通信测试。这些基础操作对于后续使用Kafka进行数据流处理非常重要。测试时在生产者终端输入消息,消费者终端会实时显示收到的消息。测试时,两个终端可以互相发送消息,实现双向交互。进程(默认使用9092端口)和。
2025-05-27 12:20:37
127
原创 【Spark RDD 常用操作练习(2)】
这些操作涵盖了 Spark RDD 的核心数据处理功能,包括:数据去重与合并(distinct、union、intersection、subtract)分组与聚合(groupBy、groupByKey、reduceByKey)排序与提取(sortByKey、keys、values)数据收集与遍历(collect、take、first、foreach)统计计算(count、max、min、sum、mean)经典应用(词频统计)每个操作均针对特定数据处理需求设计,适用于大规模分布式计算场景。
2025-04-26 01:09:09
535
原创 Hadoop 伪分布式集群环境搭建(4):安装配置Python3.6与PySpark
已搭建Hadoop伪分布式集群,HDFS服务正常运行(需提前验证和:Ubuntu 20.04默认预装Python3.8,需保留系统原有版本,避免影响依赖Python3.8的其他组件(如系统工具或Hadoop生态工具)。通过查看软链接,确认python3指向python3.8。从输出的文件列表可以看出,python3实际是一个软链接文件,指向python3.8执行程 序。我们可以分别运行python3和python3.8命令,以确认它们是否为同一个:Python命令不可用。
2025-04-23 01:44:58
1080
原创 Hadoop 伪分布式集群环境搭建(3):Spark单机环境搭建与交互式开发
本文档详细介绍如何在 Linux 系统上搭建 Spark 单机运行环境,并进行基本功能测试,包括:Spark 的安装与配置环境变量的设置SparkShell 交互式编程环境的使用验证 Spark 读取本地文件及 HDFS 文件的能力。
2025-04-23 01:11:22
445
原创 Hadoop 伪分布式集群环境搭建(2): HDFS 与 YARN 环境搭建
HDFS(Hadoop Distributed File System)是Hadoop的核心存储组件,需正确配置才能运行。待Spark环境搭建完成后,可提交Spark任务至YARN运行。关闭内存检查(虚拟机资源有限,避免任务因资源不足被拒绝)。:虚拟机环境下,适当调低YARN内存要求以避免任务失败。),用于存储Hadoop运行时产生的临时数据。:重复格式化需先删除原有数据目录,否则会失败。:仅首次启动前执行,重复操作需先清理数据目录。,需单独设置,确保其能正确调用JDK。,确保YARN能正确调用JDK。
2025-04-22 19:30:00
989
原创 Hadoop 伪分布集群环境搭建(1)
重启Ubuntu 20.04 虚拟机,确保环境变量全局生效,避免后续Hadoop运行时出现Java路径问题。创建软链接(类似于Windows的快捷方式),方便后续版本升级时只需修改软链接指向,而无需更改环境变量。修改Hadoop目录的所属用户和组,确保当前用户有完全控制权,避免因权限问题导致Hadoop启动失败。Hadoop集群管理需要SSH免密登录,确保各节点间能无密码通信。,否则会报错),若正确输出Hadoop版本信息,说明安装成功。,若无需输入密码即可登录,说明SSH免密配置成功。
2025-04-22 18:30:00
258
原创 MobaXterm 远程连接工具
MobaXterm 远程连接工具(MobaXterm remote connection tool)MobaXterm 支持连接多种终端如ssh/telnet/rlogin 等,MobaXterm 分为免费版(Home Edition) 和专业版(Professional Edition),免费版又分便携版(解压即用)和安装版选择(解压即用,无需安装)。: 解压后双击。
2025-04-15 19:30:00
1162
原创 Ubuntu 基本配置
在使用这个图形化的文本编辑器保存文件时,还要注意Linux的权限问题,如无权限的话将导致无法 正常保存。此外,还可以通过Linux终端命令gedit启动编辑器,启动时也可以在前面加上sudo获取root 权限,在后面加上文件名以编辑该文件。3、输入下面的命令来安装vim,vim是vi编辑器的增强版。vim安装完毕,在Linux终端窗体输入vi或vim命令时,实际启动的就是这个vim增强版编辑器。1、在Linux终端窗体中输入“vi”或“vim”命令,实际启动的都是vim编辑器。
2025-04-15 18:15:00
292
原创 MobaXterm报错 : Network error: Connection refused
MobaXterm 应能正常连接 Ubuntu。若仍有问题,可检查网络(如虚拟机网卡模式是否为 NAT/Bridged)。: 显示 SSH 协议版本(如。显示服务不存在或未运行 →。(端口未开放或服务未运行)。: 提示输入密码并登录成功。(需安装 SSH)。
2025-04-15 14:23:25
649
1
原创 Ubuntu 虚拟机的安装
1、可以去官网但是下载速度非常慢,建议去找现成的安装包。2、准备好Ubuntu的镜像文件官网下载速度太慢,给你们一个镜像网址。
2025-04-13 21:13:07
285
1
原创 【Spark RDD 常用操作练习(1)】
RDD:Apache Spark 的 RDD(弹性分布式数据集)是其核心抽象之一,支持高效的分布式数据处理。本文将详细介绍 RDD 的常用操作,包括创建、转换、筛选和排序等,并结合代码示例和图解帮助理解。操作前准备:启动hadoop进程,jps测试,六个进程代表启动成功。打开一个新的终端窗体,输入 pyspark 启动PySparkShell交互式编程环境。
2025-04-08 23:37:15
789
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人