Pycharm远程连接Spark（超详细图文教程）

最新推荐文章于 2024-11-06 13:02:41 发布

置顶 DanielMaster

最新推荐文章于 2024-11-06 13:02:41 发布

阅读量8.7k

点赞数 12

分类专栏：开发工具文章标签： pycharm spark

本文链接：https://blog.csdn.net/a805814077/article/details/107415130

版权

开发工具专栏收录该内容

8 篇文章

订阅专栏

在Pycharm连接远程服务器上的时候，有很多小的细节，笔者这里总结了一下完整的步骤，希望能帮到大家。连接前一定要保证集群已经可以运行pyspark程序。

1.添加SFTP连接

找到菜单栏Tool -> Deployment -> Configuration设置sftp

在这里插入图片描述

点击左上角的+号，添加新的连接

在这里插入图片描述

注意，不要勾选Visible only for this project。根据自己的需求填写host、username、password，然后点击Test SFTP connection ，确认能连接（注意：如果这里连接失败，且其他的终端，例如xshell、putty可以成功连接的话，请将pycharm版本切换到2018版本，2019版本的pycharm在这里可能会引起timeout！！！）

在这里插入图片描述

然后设置一下项目的路径，点击mapping

在这里插入图片描述

点击OK

2.添加SSH Interpreter

找到菜单栏File -> Settings

搜索Project Interpreter，点击齿轮，选择add

在这里插入图片描述

选择SSH Interpreter，选择下面的Existing server configuration，选中我们刚刚设置的SSH信息

在这里插入图片描述

根据需要修改路径，我这里是linux上默认的python的路径

在这里插入图片描述

修改本地与服务器路径

在这里插入图片描述

点击finish

3.代码编写

然后写上代码

wordcount.py

# coding=UTF-8
import sys

# 设置服务器上py4j库所在的路径
sys.path.append('/home/hadoop/apps/spark/python/lib/py4j-0.10.7-src.zip')
from pyspark.sql import SparkSession

if __name__ == "__main__":
    # 如果spark配置了yarn集群，这里的master可以修改为yarn
    spark = SparkSession.builder \
        .master('local') \
        .appName('Pycharm Connection') \
        .getOrCreate()
    # wordcount操作，这里文件为hdfs的路径
    words = spark.sparkContext \
        .textFile("/data/words") \
        .flatMap(lambda line: line.split("\t")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b) \
        .collect()
    print (words)
spark.stop()