Pycharm远程连接Spark(超详细图文教程)

在Pycharm连接远程服务器上的时候,有很多小的细节,笔者这里总结了一下完整的步骤,希望能帮到大家。连接前一定要保证集群已经可以运行pyspark程序

1.添加SFTP连接

找到菜单栏Tool -> Deployment -> Configuration设置sftp

在这里插入图片描述

点击左上角的+号,添加新的连接

在这里插入图片描述

注意,不要勾选Visible only for this project。根据自己的需求填写host、username、password,然后点击Test SFTP connection ,确认能连接(注意:如果这里连接失败,且其他的终端,例如xshell、putty可以成功连接的话,请将pycharm版本切换到2018版本,2019版本的pycharm在这里可能会引起timeout!!!

在这里插入图片描述

在这里插入图片描述

然后设置一下项目的路径,点击mapping

在这里插入图片描述

点击OK

2.添加SSH Interpreter

找到菜单栏File -> Settings

搜索Project Interpreter,点击齿轮,选择add

在这里插入图片描述

选择SSH Interpreter,选择下面的Existing server configuration,选中我们刚刚设置的SSH信息

在这里插入图片描述

根据需要修改路径,我这里是linux上默认的python的路径

在这里插入图片描述

修改本地与服务器路径

在这里插入图片描述

点击finish

3.代码编写

然后写上代码

wordcount.py

# coding=UTF-8
import sys

# 设置服务器上py4j库所在的路径
sys.path.append('/home/hadoop/apps/spark/python/lib/py4j-0.10.7-src.zip')
from pyspark.sql import SparkSession

if __name__ == "__main__":
    # 如果spark配置了yarn集群,这里的master可以修改为yarn
    spark = SparkSession.builder \
        .master('local') \
        .appName('Pycharm Connection') \
        .getOrCreate()
    # wordcount操作,这里文件为hdfs的路径
    words = spark.sparkContext \
        .textFile("/data/words") \
        .flatMap(lambda line: line.split("\t")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b) \
        .collect()
    print (words)
spark.stop()

然后将代码同步到服务器

Tools -> Deployment -> Upload to hadoop03

在这里插入图片描述

4.启动设置

点击右上角的三角形,然后删除working directory里面的路径,并更改Environment variables
在这里插入图片描述

这里要设置服务器上的SPARK_HOME与PYTHONPATH路径,PYTHONPATH路径一般为SPARK_HOME/python,然后apply并OK

在这里插入图片描述

5.本地环境配置

需要将本地的jar包添加进来,不然运行的时候会报错!!!

找到菜单栏File -> Settings

搜索Project Structure,添加jar包

在这里插入图片描述

两个jar包都要添加进来

在这里插入图片描述

可以看到左边的项目管理器中出现了刚刚添加的两个jar包

在这里插入图片描述

6.启动

右键 -> Run ‘wordcount’

在这里插入图片描述

结果如下

在这里插入图片描述

安装PySpark需要以下步骤: 1. 首先,确保你已经安装了Java Development Kit (JDK)。PySpark需要Java环境来运行。你可以从Oracle官网下载并安装适合你操作系统的JDK版本。 2. 接下来,你需要安装Apache Spark。你可以从官方网站下载Spark的二进制包。选择一个稳定版本并下载对应的压缩包。 3. 解压Spark压缩包到你想要安装的目录。例如,你可以将其解压到`/opt/spark`目录。 4. 配置环境变量。打开终端并编辑`~/.bashrc`文件(或者`~/.bash_profile`文件,取决于你的操作系统)。在文件末尾添加以下行: ``` export SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH ``` 保存文件并执行以下命令使配置生效: ``` source ~/.bashrc ``` 5. 现在,你可以安装PySpark了。打开终端并执行以下命令: ``` pip install pyspark ``` 这将会安装PySpark及其依赖项。 6. 安装完成后,你可以在PyCharm中创建一个新的PySpark项目。打开PyCharm,点击"Create New Project",选择"Pure Python",然后点击"Create"。 7. 在项目设置中,选择"Project Interpreter",然后点击右侧的设置按钮。点击"Add"按钮,选择"System Interpreter",然后选择你的Python解释器。 8. 在项目设置中,选择"Python Interpreter",然后点击右侧的设置按钮。点击"Add"按钮,选择"Remote",然后选择"SSH Credentials"。填写Spark集群的SSH连接信息,并选择Spark的安装目录。 9. 点击"OK"保存设置。现在你可以在PyCharm中编写和运行PySpark代码了。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DanielMaster

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值