111222333.-CSDN博客

原创 Spark编程进阶(三、Spark应用部署模式实例：)

本文介绍了Spark应用的三种部署模式：Local模式、Spark Standalone模式和Spark on YARN模式。在Local模式下，通过pyspark --master local命令启动Spark应用程序，并展示了相关进程。在Spark Standalone模式下，首先停止YARN服务，然后启动Standalone集群服务，并通过pyspark --master spark://vm01:7077进入交互式环境。在Spark on YARN模式下，首先停止Standalone服务，启动YAR

2025-05-20 18:35:56 328

原创 Spark编程进阶(二、搭建spark伪分布集群)

hadoop中YARN的工作节点上的代理，负责容器生命周期管理，并监控资源使用情况（如CPU、内存、磁盘、网络等）。#hadoop中HDFS的数据存储节点，负责存储实际的数据块，并响应来自客户端或，NameNode的读写请求。#hadoop中HDFS的名称节点（核心组件），管理文件系统的命名空间，并控制客户端对文件的访问。2、更改了主机名，还需要修改/etc/hosts文件，在这个文件中设定了IP地址与主机名的对应关系，类似DNS域名服务器的功能。#spark主节点，负责集群管理和资源分配。

2025-05-20 18:31:50 412

原创 Spark编程进阶(一、搭建/安装与测试python环境)

本文介绍了在Ubuntu系统上搭建和测试Python环境的三种方法：PySpark交互式、Jupyter Notebook和PyCharm。首先，通过命令行安装PySpark和Jupyter Notebook，并测试了PySpark的基本功能，如创建SparkContext和并行化数据集。接着，在Jupyter Notebook中初始化PySpark环境，并执行类似的操作。最后，通过PyCharm IDE配置SparkSession，并运行简单的Spark任务。这些步骤帮助用户在不同开发环境中顺利使用PyS

2025-05-20 18:26:30 328

原创数据查询(基本/高级查询)

本文介绍了使用Spark SQL进行基本和高级查询的方法。基本查询包括全字段查询、指定字段查询、无重复字段查询、按条件查询以及查询结果排序。高级查询则涵盖指定数量、模糊查询、IN和BETWEEN查询、嵌套查询、聚合查询和分组查询。通过这些查询方式，用户可以灵活地从数据集中提取和筛选所需信息，并进行统计和排序操作。这些功能为数据分析和处理提供了强大的支持。

2025-05-20 18:15:49 307

原创窗口操作(Spark SQL)

在SparkSQL中，窗口函数（Window Functions）是一种强大的工具，用于处理分组后的数据排序和聚合问题。与传统的GROUP BY不同，窗口函数允许在分组后对每个组内的数据进行单独操作，而不会减少数据行数。例如，可以通过窗口函数对每个班级的学生成绩进行排名，而不是对所有学生进行全局排名。窗口函数的核心概念是“窗口”，即每条记录对应的数据集合，窗口函数对这些集合进行操作。与普通聚合函数不同，窗口函数不会改变数据行数，且在执行顺序上位于GROUP BY之后、ORDER BY之前。通过PySpark

2025-05-20 18:09:34 507

原创 Spark 离线数据处理实例

在Jupyter Notebook中，本文档详细介绍了对美妆商品数据的分析流程。首先，进行需求分析，包括找出每个商品小类中价格最高的前5个商品、统计每月订单的订购数量和消费金额、按地区统计订购数量排行、按商品类型统计订购数量排行、分析各省的美妆订购数量以及通过RFM模型挖掘客户价值。接着，进行数据清洗的准备工作，包括安装必要的Python库（如pandas、pyecharts、pyspark-stubs），导入库并加载数据文件。数据清洗步骤包括查看数据内容、检查重复数据、处理空值字段、去除重复数据并重建索引

2025-05-13 17:28:41 750

原创 DataFrame

在PySpark中，DataFrame的创建可以通过多种方式实现，包括从集合、文本文件、CSV文件、JSON文件、Parquet文件以及MySQL数据库中创建。创建后，可以通过printSchema()、columns、dtypes、show()等方法查看DataFrame的结构和数据内容。基于DSL（领域特定语言）的操作包括数据查询（如筛选、排序、分组）、数据处理（如去重、删除、添加列）以及集合操作（如交集、并集）。此外，基于SQL的操作允许通过创建临时视图并执行SQL查询来进行数据操作，包括基本查询、高

2025-05-11 16:40:22 617

原创 spark实操与知识摘要

sudo tar -zxf spark-2.4.8-bin-without-hadoop.tgz -C /usr/local #解压到local文件夹。sudo tar -zxf jdk-8u201-linux-x64.tar.gz -C /usr/local #解压到local文件夹。sudo ln -s spark-2.4.8-bin-without-hadoop.tgz/ spark #创建快捷方式名称为spark。to override,按:wq!

2025-05-06 13:25:45 625

原创 spark相关知识点总结

spark相关知识点总结

2025-05-06 13:18:59 309

原创安装pysparkJupyter Notebook、pycharm以及相关测试

(2)点击右侧New,在点Python 3,输入以下代码(在执行代码前,必须先运行一次findspark.init()方法,只需在当前jupyter notebook页面执行一次即可,不可重复执行)2.打开一个Linux终端并输入python命令进入Python3.6交互编程环境（python3命令对应默认安装的Python3.8，python命令被设置为对应Python3.6）1.执行下面的命令将PyCharm安装包文件解压到/usr/local目录，然后切换到安装目录，执行bin目录。

2025-05-05 17:10:27 682

原创 spark编程基础 (RDD离线数据计算)

rdd = sc.parallelize([1, 2, 3, 6, 5, 4, 6, 12, 23]).groupBy(lambda x:x%3) #将元素分成3组，第1组x%3 ==0, 第2组x%3 ==1, 第3组x%3 ==2。sc.parallelize([1, 2, 3, 4, 5]).sortBy(lambda x:x, False).collect() #降序排列False,若不加False,则正序。(1) rdd.collect()：收集汇总 #返回RDD本地数组数据。

2025-04-29 15:26:42 358

原创 Spark Streaming实时数据计算

sc=SparkContext('local[2]','NetworkWordCount') #参数文件名后面不能带扩展名。sc=SparkContext('local[2]','NetworkWordCountAll') #参数文件名后面不能带扩展名。#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动流计算循环执行,并等待程序终止(ctrl+c结束)

2025-04-29 15:23:04 872

原创安装并测试kafa软件

3.(1)接下来运行程序先对Kafka进行简单的测试，我们在第1个终端窗体中创建mytopic主题，并向其发送几条测试的消息内容，然后在第2个终端窗体中获取mytopic主题收到的消息并显示(依次执行以下代码)我们可以开启两个终端窗体，其中左边终端窗体充当监听9999端口的服务端，右边终端窗体充当连接到服务器的客户端，然后双方互发数据并在对方显示。在终端窗体A中随便输入几行内容，如果一切正常，在终端窗体B中就可以看到收到的消息内容。将运行以上命令的Linux终端窗体称为A，代表消息的生产者。

2025-04-18 14:47:20 182

原创 RDD相关练习题

例题:在test.txt文件中包含如下数据（每行为一名学生的信息，分别对应班级号、姓名、年龄、性别、科目、考试成绩）x[1]=='女').map(lambda x:x[2]).mean()=='女').count()#x[1]以上一行为准。(9)12班chinese科目最低分是多少?12 未江 25 男 english 70。13 李逵 25 男 english 70。12 吴用20男 chinese 50。13 林冲20男 english 50。10)13班math科目最高分是多少?

2025-04-15 13:48:08 632

原创 mysql安装

mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb ,要安装的是第⼀个不带community的这个(因为之前安装了community版本还是报这个错，后来把不带community的也安装了，原则就是报什么错就安装什么)3) 在安装到client的时候，⼜出现了报错, 这个client需要依赖client-core，所以安装client-core。7. 要想安装server包，就要先安装common和client和server-core这三个包。

2025-04-15 13:44:40 422

2502_90817102的博客

原创 Spark编程进阶(三、Spark应用部署模式实例：)

原创 Spark编程进阶(二、搭建spark伪分布集群)

原创 Spark编程进阶(一、搭建/安装与测试python环境)

原创数据查询(基本/高级查询)

原创窗口操作(Spark SQL)

原创 Spark 离线数据处理实例

原创 DataFrame

原创 spark实操与知识摘要

原创 spark相关知识点总结

原创安装pysparkJupyter Notebook、pycharm以及相关测试

原创 spark编程基础 (RDD离线数据计算)

原创 Spark Streaming实时数据计算

原创安装并测试kafa软件

原创 RDD相关练习题

原创 mysql安装

原创 RDD创建和转换

原创 RDD转换行操作和词频统计

原创词频统计练习

原创在线安装mysql-server和离线安装mysql-connector

原创 Ubuntu 虚拟机的安装

离线数据处理实例的素材2

离线数据处理实例的素材1

在线安装mysql-server和离线安装mysql-connector

Ubuntu安装MySQL步骤

RDD转换行操作和词频统计

RDD的创建和转换操作

spark环境搭建和配置文案

空空如也