自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Spark编程进阶(三、Spark应用部署模式实例:)

本文介绍了Spark应用的三种部署模式:Local模式、Spark Standalone模式和Spark on YARN模式。在Local模式下,通过pyspark --master local命令启动Spark应用程序,并展示了相关进程。在Spark Standalone模式下,首先停止YARN服务,然后启动Standalone集群服务,并通过pyspark --master spark://vm01:7077进入交互式环境。在Spark on YARN模式下,首先停止Standalone服务,启动YAR

2025-05-20 18:35:56 328

原创 Spark编程进阶(二、搭建spark伪分布集群)

hadoop中YARN的工作节点上的代理,负责容器生命周期管理,并监控资源使用情况(如CPU、内存、磁盘、网络等)。#hadoop中HDFS的数据存储节点,负责存储实际的数据块,并响应来自客户端或,NameNode的读写请求。#hadoop中HDFS的名称节点(核心组件),管理文件系统的命名空间,并控制客户端对文件的访问。2、更改了主机名,还需要修改/etc/hosts文件,在这个文件中设定了IP地址与主机名的对应关系,类似DNS域名服务器的功能。#spark主节点,负责集群管理和资源分配。

2025-05-20 18:31:50 412

原创 Spark编程进阶(一、搭建/安装与测试python环境)

本文介绍了在Ubuntu系统上搭建和测试Python环境的三种方法:PySpark交互式、Jupyter Notebook和PyCharm。首先,通过命令行安装PySpark和Jupyter Notebook,并测试了PySpark的基本功能,如创建SparkContext和并行化数据集。接着,在Jupyter Notebook中初始化PySpark环境,并执行类似的操作。最后,通过PyCharm IDE配置SparkSession,并运行简单的Spark任务。这些步骤帮助用户在不同开发环境中顺利使用PyS

2025-05-20 18:26:30 328

原创 数据查询(基本/高级查询)

本文介绍了使用Spark SQL进行基本和高级查询的方法。基本查询包括全字段查询、指定字段查询、无重复字段查询、按条件查询以及查询结果排序。高级查询则涵盖指定数量、模糊查询、IN和BETWEEN查询、嵌套查询、聚合查询和分组查询。通过这些查询方式,用户可以灵活地从数据集中提取和筛选所需信息,并进行统计和排序操作。这些功能为数据分析和处理提供了强大的支持。

2025-05-20 18:15:49 307

原创 窗口操作(Spark SQL)

在SparkSQL中,窗口函数(Window Functions)是一种强大的工具,用于处理分组后的数据排序和聚合问题。与传统的GROUP BY不同,窗口函数允许在分组后对每个组内的数据进行单独操作,而不会减少数据行数。例如,可以通过窗口函数对每个班级的学生成绩进行排名,而不是对所有学生进行全局排名。窗口函数的核心概念是“窗口”,即每条记录对应的数据集合,窗口函数对这些集合进行操作。与普通聚合函数不同,窗口函数不会改变数据行数,且在执行顺序上位于GROUP BY之后、ORDER BY之前。通过PySpark

2025-05-20 18:09:34 507

原创 Spark 离线数据处理实例

在Jupyter Notebook中,本文档详细介绍了对美妆商品数据的分析流程。首先,进行需求分析,包括找出每个商品小类中价格最高的前5个商品、统计每月订单的订购数量和消费金额、按地区统计订购数量排行、按商品类型统计订购数量排行、分析各省的美妆订购数量以及通过RFM模型挖掘客户价值。接着,进行数据清洗的准备工作,包括安装必要的Python库(如pandas、pyecharts、pyspark-stubs),导入库并加载数据文件。数据清洗步骤包括查看数据内容、检查重复数据、处理空值字段、去除重复数据并重建索引

2025-05-13 17:28:41 750

原创 DataFrame

在PySpark中,DataFrame的创建可以通过多种方式实现,包括从集合、文本文件、CSV文件、JSON文件、Parquet文件以及MySQL数据库中创建。创建后,可以通过printSchema()、columns、dtypes、show()等方法查看DataFrame的结构和数据内容。基于DSL(领域特定语言)的操作包括数据查询(如筛选、排序、分组)、数据处理(如去重、删除、添加列)以及集合操作(如交集、并集)。此外,基于SQL的操作允许通过创建临时视图并执行SQL查询来进行数据操作,包括基本查询、高

2025-05-11 16:40:22 617

原创 spark实操与知识摘要

sudo tar -zxf spark-2.4.8-bin-without-hadoop.tgz -C /usr/local #解压到local文件夹。sudo tar -zxf jdk-8u201-linux-x64.tar.gz -C /usr/local #解压到local文件夹。sudo ln -s spark-2.4.8-bin-without-hadoop.tgz/ spark #创建快捷方式名称为spark。to override,按:wq!

2025-05-06 13:25:45 625

原创 spark相关知识点总结

spark相关知识点总结

2025-05-06 13:18:59 309

原创 安装pysparkJupyter Notebook、pycharm以及相关测试

(2)点击右侧New,在点Python 3,输入以下代码(在执行代码前,必须先运行一次findspark.init()方法,只需在当前jupyter notebook页面执行一次即可,不可重复执行)2.打开一个Linux终端并输入python命令进入Python3.6交互编程环境(python3命令对应默认安装的Python3.8,python命令被设置为对应Python3.6)1.执行下面的命令将PyCharm安装包文件解压到/usr/local目录,然后切换到安装目录,执行bin目录。

2025-05-05 17:10:27 682

原创 spark编程基础 (RDD离线数据计算)

rdd = sc.parallelize([1, 2, 3, 6, 5, 4, 6, 12, 23]).groupBy(lambda x:x%3) #将元素分成3组,第1组x%3 ==0, 第2组x%3 ==1, 第3组x%3 ==2。sc.parallelize([1, 2, 3, 4, 5]).sortBy(lambda x:x, False).collect() #降序排列False,若不加False,则正序。(1) rdd.collect():收集汇总 #返回RDD本地数组数据。

2025-04-29 15:26:42 358

原创 Spark Streaming实时数据计算

sc=SparkContext('local[2]','NetworkWordCount') #参数文件名后面不能带扩展名。sc=SparkContext('local[2]','NetworkWordCountAll') #参数文件名后面不能带扩展名。#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动流计算循环执行,并等待程序终止(ctrl+c结束)

2025-04-29 15:23:04 872

原创 安装并测试kafa软件

3.(1)接下来运行程序先对Kafka进行简单的测试,我们在第1个终端窗体中创建mytopic主题,并向其发送几条测试的消息内容,然后在第2个终端窗体中获取mytopic主题收到的消息并显示(依次执行以下代码)我们可以开启两个终端窗体,其中左边终端窗体充当监 听9999端口的服务端,右边终端窗体充当连接到服务器的客户端,然后双方互发数据并在对方显示。在终端窗体A中随便输入几行内容,如果一切正常,在终端窗体B中就可以看到收到的消息内容。将运行以上命令的Linux终端窗体称为A,代表消息的生产者。

2025-04-18 14:47:20 182

原创 RDD相关练习题

例题:在test.txt文件中包含如下数据(每行为一名学生的信息,分别对应班级号、姓名、年龄、性别、科目、考试成绩)x[1]=='女').map(lambda x:x[2]).mean()=='女').count()#x[1]以上一行为准。(9)12班chinese科目最低分是多少?12 未江 25 男 english 70。13 李逵 25 男 english 70。12 吴用20男 chinese 50。13 林冲20男 english 50。10)13班math科目最高分是多少?

2025-04-15 13:48:08 632

原创 mysql安装

mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb ,要安装的是第⼀个不带community的这个(因为之前安装了community版本还是报这个错,后来把不带community的也安装了,原则就是报什么错就安装什么)3) 在安装到client的时候,⼜出现了报错, 这个client需要依赖client-core,所以安装client-core。7. 要想安装server包,就要先安装common和client和server-core这三个包。

2025-04-15 13:44:40 422

原创 RDD创建和转换

一.从集合元素创建RDD(Create RDD from collections)二.从文本文件创建RDD(Create RDD from text file)在 parallelize()方法中设定一下分区参数:(Ctrl D退出)转换数据(Transform data with flatMap)从数据文件创建对应的 RDD数据集:(输入pyspark)转换数据(Transform data with map)排序数据(Sort data with sortBy)

2025-04-15 13:42:58 412

原创 RDD转换行操作和词频统计

和 flatMapValues 操作(mapValues and flatMapValues operations)如果是对一个空的 RDD 执行 first()方法的话,因为不存在任何元素,此时会提示错误信息)下面是 count()方法的使用的示例:[count()返回的是 RDD 数据集的元素个数]和 values 操作(keys and values operations)操作(max/min/sum/mean operations)排序数据(Sort data by sortByKey)

2025-04-15 13:40:57 506

原创 词频统计练习

rdd5 = rdd4.reduceByKey(lambda a,b:a+b) 按key值进行value值合并计算,将每个相同元素的value值相加。rdd4 = rdd3.map(lambda x:(x,1)) #将每一个拆解的单词转换成元组,1为次数。rdd6 = rdd5.sortBy(lambda x:x[1],False) #排序False降序。rdd1 = sc.textFile('file:///文件具体位置’)rdd1.collect()或rdd1.foreach(print)

2025-04-15 13:36:23 321

原创 在线安装mysql-server和离线安装mysql-connector

cd ~/”mysql-connector文件所在位置” (若文件是解压之后拖到Downloads中的,则不需要进行tar -zxf mysql-connector-j-8.0.31.tar.gz)5.准备要用的数据库和表,先连接到数据库服务,然后建立一个people数据库以及people info表,并在表中添加一条测试数据(密码是123456)4.安装完毕,在使用之前先初始化mysql登录,设置好登陆密码(登录账户位mysql中的root用户)在Ubuntu环境下安装MySQL。

2025-04-15 13:34:07 198

原创 Ubuntu 虚拟机的安装

Ubuntu 虚拟机的安装

2025-04-15 13:22:29 2219 1

离线数据处理实例的素材2

离线数据处理实例的素材

2025-05-13

离线数据处理实例的素材1

离线数据处理实例的素材

2025-05-13

在线安装mysql-server和离线安装mysql-connector

在线安装mysql-server和离线安装mysql-connector

2025-03-31

Ubuntu安装MySQL步骤

Ubuntu安装MySQL步骤

2025-03-25

RDD转换行操作和词频统计

RDD转换行操作和词频统计

2025-03-11

RDD的创建和转换操作

RDD创建和转换

2025-03-08

spark环境搭建和配置文案

spark环境搭建和配置文案

2025-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除