使用pycharm编写spark程序报错

问题遇到的现象和发生背景

在windows下使用pycharm编写spark程序报错如下：

用代码块功能插入代码，请勿粘贴截图

源代码

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("WordCount").setMaster("local")
sc = SparkContext(conf=conf)
inputFile = "./word.txt"
textFile = sc.textFile(inputFile)
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
wordCount.foreach(print)

运行结果及报错内容

22/11/09 16:23:07 ERROR TaskSetManager: Task 0 in stage 0.0 failed 1 times; aborting job
Traceback (most recent call last):
File "D:/Code/PythonCode/testSpark/TEST/big_word_process.py", line 8, in
wordCount.foreach(print)
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\rdd.py", line 1163, in foreach
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\rdd.py", line 1521, in count
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\rdd.py", line 1509, in sum
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\rdd.py", line 1336, in fold
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\rdd.py", line 1197, in collect
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\py4j-0.10.9.5-src.zip\py4j\java_gateway.py", line 1322, in call
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\py4j-0.10.9.5-src.zip\py4j\protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0) (LAPTOP-DVJ0R5NO executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\worker.py", line 668, in main
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\worker.py", line 85, in read_command
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\serializers.py", line 173, in _read_with_length
return self.loads(obj)
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\serializers.py", line 452, in loads
return pickle.loads(obj, encoding=encoding)
File "D:\myjava\spark\spark-3.3.1-bin-hadoop3\python\lib\pyspark.zip\pyspark\cloudpickle\cloudpickle.py", line 590, in _create_parametrized_type_hint
return origin[args]
File "D:\python366\lib\typing.py", line 682, in inner
return func(*args, **kwds)
File "D:\python366\lib\typing.py", line 1131, in getitem
_check_generic(self, params)
File "D:\python366\lib\site-packages\typing_extensions.py", line 113, in _check_generic
raise TypeError(f"Too {'many' if alen > elen else 'few'} parameters for {cls};"
TypeError: Too many parameters for typing.Iterable; actual 2, expected 1

我的解答思路和尝试过的方法

代码和数据应该没有问题

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2022-11-09 17:11
关注
报错代码复制出来发给我

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python大数据之PySpark(三)使用Python语言开发Spark程序代码
2023-09-29 00:00

AIMaynor的博客文章目录使用Python语言开发Spark程序代码总结后记使用Python语言开发Spark程序代码 Spark Standalone的PySpark的搭建----bin/pyspark --master spark://node1:7077 Spark StandaloneHA的搭建—Master的单点故障...
摸鱼大数据——Spark基础——Spark集群Standalone模式+PyCharm远程开发配置
2024-07-01 07:15

困了就倒头睡的博客远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码都会自动上传到远端服务器中, 在执行代码的时候, ...
spark跟pycharm整合 ——问题解决
2022-07-27 16:08

熙仪繁华的博客看到python解释器问题我们这里使用的python解释器是3.8版本修改成虚拟环境中的3.6版本。1下载hadoop-2.5.2按txt文件拷贝问价。2.创建项目hellosparkstudy。...3.配置（模块所在的位置）4编写spark程序测试。...
day01_Spark基础
2025-01-02 17:50

十六ᵛᵃᵉ的博客简单来说，Spark是大数据领域的“速度与激情”，它是一个快速的通用引擎，用于大规模数据处理。具体而言，Spark是一个开源的分布式计算系统，它提供了强大的API，支持Java、Scala、Python和R等多种编程语言。Spark的...
Spark 程序开发与提交：本地与集群模式全解析
2024-11-06 10:29

天冬忘忧的博客本文将深入探讨 Spark 程序在本地开发并远程提交到集群测试的过程，以及使用 spark - submit 脚本在集群模式下提交程序的相关知识，包括参数配置、运行模式等内容。
Python大数据之PySpark
2023-10-21 22:32

对许的博客在Driver端，Python通过Py4j来调用Java方法，将用户使用Python写的程序映射到JVM中，比如，用户在PySpark中实例化一个Python的SparkContext对象，最终会在JVM中实例化Scala的SparkContext对象。为了不影响现有Spark...
大数据报错问题
2021-08-19 16:26

weixin_ry5219775的博客 20210819 idea + spark 报错：object apache is not a member of package org https://blog.csdn.net/xl132598798/article/details/105695593
Python+大数据-Spark技术栈(一) SparkBase环境基础
2022-11-08 21:27

呆猛的呆呆小哥的博客 Python+大数据-Spark技术栈(一) SparkBase环境基础
Spark离线开发指南(详细版)
2024-06-25 17:05

Evan2OO1的博客 API：API：sparkcontext.textFile(参数1，参数2)参数1：必填，文件路径支持本地，支持HDFS，也支持一些比如S3协议参数2：可选，表示最小分区数量注意：参数2话语权不足，spark有自己的判断，在它的允许的范围内，...
Pycharm中搭建PySpark开发环境
2020-09-05 12:04

一壶清茶i的博客文章目录前言一、本机环境二、PySpark安装步骤1.命令提示符中使用Anaconda创建虚拟环境2.使用以下命令查看Anaconda中创建的虚拟环境3.使用以下命令进入到新创建的虚拟环境中4....编写Spark单词统计的代码7.解决Wa
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月9日