Python 学习 pyspark遇到问题

学习黑马pySpark 中rdd.map()方法，只要执行了rdd.map()，再执行rdd.collect()就会报错
代码如下：


from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/python-workSpace/Testpython1/.venv/Scripts/python.exe"
conf = SparkConf().setMaster("local").setAppName("sparkRDD")
sc = SparkContext(conf=conf)
rdd7 = sc.parallelize([6, 7]).map(lambda x: x + 1)
print(rdd7.collect())
sc.stop()

报错如下：

23/12/26 15:18:02 ERROR TaskSetManager: Task 0 in stage 0.0 failed 1 times; aborting job
Traceback (most recent call last):
  File "D:\python-workSpace\Testpython1\spark\sparkRDD.py", line 13, in <module>
    print(rdd7.collect())
          ^^^^^^^^^^^^^^
  File "D:\python-workSpace\Testpython1\.venv\Lib\site-packages\pyspark\rdd.py", line 1833, in collect
    sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python-workSpace\Testpython1\.venv\Lib\site-packages\py4j\java_gateway.py", line 1322, in __call__
    return_value = get_return_value(
                   ^^^^^^^^^^^^^^^^^
  File "D:\python-workSpace\Testpython1\.venv\Lib\site-packages\py4j\protocol.py", line 326, in get_return_value
    raise Py4JJavaError(
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0) (DESKTOP-2JGNEKL executor driver): org.apache.spark.SparkException: Python worker exited unexpectedly (crashed)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator$$anonfun$1.applyOrElse(PythonRunner.scala:612)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator$$anonfun$1.applyOrElse(PythonRunner.scala:594)
    at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:38)
    at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:789)
    at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:766)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:525)
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
    at scala.collection.Iterator.foreach(Iterator.scala:943)
    at scala.collection.Iterator.foreach$(Iterator.scala:943)
    at org.apache.spark.InterruptibleIterator.foreach(InterruptibleIterator.scala:28)
    at scala.collection.generic.Growable.$plus$plus$eq(Growable.scala:62)
    at scala.collection.generic.Growable.$plus$plus$eq$(Growable.scala:53)
    at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:105)
    at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:49)
    at scala.collection.TraversableOnce.to(TraversableOnce.scala:366)
    at scala.collection.TraversableOnce.to$(TraversableOnce.scala:364)
    at org.apache.spark.InterruptibleIterator.to(InterruptibleIterator.scala:28)
    at scala.collection.TraversableOnce.toBuffer(TraversableOnce.scala:358)
    at scala.collection.TraversableOnce.toBuffer$(TraversableOnce.scala:358)
    at org.apache.spark.InterruptibleIterator.toBuffer(InterruptibleIterator.scala:28)
    at scala.collection.TraversableOnce.toArray(TraversableOnce.scala:345)
    at scala.collection.TraversableOnce.toArray$(TraversableOnce.scala:339)
    at org.apache.spark.InterruptibleIterator.toArray(InterruptibleIterator.scala:28)
    at org.apache.spark.rdd.RDD.$anonfun$collect$2(RDD.scala:1046)
    at org.apache.spark.SparkContext.$anonfun$runJob$5(SparkContext.scala:2438)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
    at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:161)
    at org.apache.spark.scheduler.Task.run(Task.scala:141)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$4(Executor.scala:620)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:64)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:61)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:94)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:623)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.EOFException
    at java.io.DataInputStream.readInt(DataInputStream.java:392)
    at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:774)
    ... 32 more

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

python使用pyspark出现问题 python spark 大数据
2023-02-27 09:19

回答 4 已采纳就是提示里说的：系统找不到指定的路径。你检查下是那个路径值不对
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
【Python学习教程】Python编程环境搭建
2022-01-23 21:55

小熊coder的博客文章目录Windows安装Python（图解）关于 ...1) 交互式编程2) 编写源文件Python 交互式编程编写 Python 源文件源文件的后缀源文件的编码格式运行源文件第一个Python程序——在屏幕上输出文本在屏幕上输出字符串对分号
初学者对于python语言的学习问题 python
2021-11-16 23:33

回答 1 已采纳建议先把基础学好，如果能跟上课程进度，可以超前学习一些知识。基础知识有C语言（C语言是一门底层语言，很多语言都是基于C语言写的）、然后是计算机组成原理、数据结构、操作系统、计算机网络原理。其实编程语言
关于#python#运行pyspark的问题，如何解决？ python spark
2023-03-15 23:20

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/688018这篇博客你也
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
Python 与 PySpark数据分析实战指南：解锁数据洞见_data analysis with python and pyspark电子书下载
2024-04-26 20:38

2401_84264244的博客【代码】Python 与 PySpark数据分析实战指南：解锁数据洞见_data analysis with python and pyspark电子书下载。
Python大学编程问题(竖向输出) python
2022-05-23 20:37

回答 1 已采纳 a = int(input()) for i in str(a): b = [i]*9 print("\t\t".join(b))
python存款买房1问题解答 python 开发语言
2022-10-26 17:29

回答 1 已采纳 total_cost = float(input("请输入总房价: ")) # total_cost为当前房价 annual_salary = float(input("请输入年薪: ")) #
如何选择学习一门编程语言 python 有问必答
2022-04-04 23:37

回答 4 已采纳首先要提醒你的是，零基础自学，想发展成副业，将是一个漫长的过程，除非你有浓厚的兴趣，否则很难坚持下来，如果想快速上手，能编写一般的网络应用，python无疑是最好的选择，c语言你努力学个一年，也可能还
Python使用pySpark时数据报错(1)
2024-04-29 02:05

码农迟迟的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
Python有关制作英文学习词典问题。 python
2021-12-31 21:48

回答 4 已采纳可以参考下这个 #英文字典 def oppendict(): dir = 'mydict.txt' dicts = {} tf=open(dir,'r+')
PySpark-核心编程
2023-08-19 17:00

白莲居仙的博客 PySpark核心编程笔记记录，内含详细代码演示
软件测试之python学习
2023-01-18 17:34

weixin_41812355的博客注意点：可能会出现的bug(pycharm软件的问题)：代码中只有一个断点的时候不能debug调试查看代码的执行过程，解决方案，在代码其他任意地方多加一个断点 12、循环的基本使用 12.1 while循环的基本使用使用场景：让...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月26日

悬赏问题

¥15 WPF RichTextBox格式化大量文本卡顿如何解决
¥15 什么设备可以研究OFDM的60GHz毫米波信道模型
¥15 不知道是该怎么引用多个函数片段
¥15 pip install后修改模块路径，import失败，需要在哪里修改环境变量？
¥15 爬取1-112页所有帖子的标题但是12页后要登录后才能我使用selenium模拟登录账号密码输入后会报错不知道怎么弄了
¥30 关于用python写支付宝扫码付异步通知收不到的问题
¥50 vue组件中无法正确接收并处理axios请求
¥15 隐藏系统界面pdf的打印、下载按钮
¥15 MATLAB联合adams仿真卡死如何解决(代码模型无问题)
¥15 基于pso参数优化的LightGBM分类模型

Python 学习 pyspark遇到问题

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新