2301_79603960 2026-04-06 16:34 采纳率: 75%

已结题

python pyspark JDK java

在JDK17环境下pyspark代码运行报错。
但是下面代码在配置环境下这段代码运行有警告错误，但是仍然能够正常运行。为什么图二报错。pyspark的版本目前是4.1.1，换成低版本和高版本的都不行，都尝试过了，有没有遇到过这种问题，应该如何解决？

D:\software\Python\Projects\pyecharts\.venv\Scripts\python.exe D:\software\Python\Projects\pyecharts\数据处理\flatMap.py 
WARNING: Using incubator modules: jdk.incubator.vector
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
26/04/06 16:31:39 ERROR Executor: Exception in task 7.0 in stage 0.0 (TID 7)
org.apache.spark.SparkException: Python worker failed to connect back.
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:281)
    at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:154)
    at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:158)
    at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:309)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:72)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:374)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:338)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
    at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:180)
    at org.apache.spark.scheduler.Task.run(Task.scala:147)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$5(Executor.scala:716)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:86)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:83)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:97)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:719)
    at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
    at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
    at java.base/java.lang.Thread.run(Thread.java:840)
Caused by: java.net.SocketTimeoutException: Timed out while waiting for the Python worker to connect back
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:263)
    ... 17 more
26/04/06 16:31:39 WARN TaskSetManager: Lost task 7.0 in stage 0.0 (TID 7) (CHINAMI-G8GC0PN executor driver): org.apache.spark.SparkException: Python worker failed to connect back.
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:281)
    at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:154)
    at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:158)
    at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:309)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:72)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:374)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:338)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
    at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:180)
    at org.apache.spark.scheduler.Task.run(Task.scala:147)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$5(Executor.scala:716)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:86)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:83)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:97)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:719)
    at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
    at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
    at java.base/java.lang.Thread.run(Thread.java:840)
Caused by: java.net.SocketTimeoutException: Timed out while waiting for the Python worker to connect back
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:263)
    ... 17 more

26/04/06 16:31:39 ERROR TaskSetManager: Task 7 in stage 0.0 failed 1 times; aborting job
Traceback (most recent call last):
  File "D:\software\Python\Projects\pyecharts\数据处理\flatMap.py", line 8, in <module>
    print(rdd2.collect())
          ~~~~~~~~~~~~^^
  File "D:\software\Python\Projects\pyecharts\.venv\Lib\site-packages\pyspark\core\rdd.py", line 1700, in collect
    sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
  File "D:\software\Python\Projects\pyecharts\.venv\Lib\site-packages\py4j\java_gateway.py", line 1362, in __call__
    return_value = get_return_value(
        answer, self.gateway_client, self.target_id, self.name)
  File "D:\software\Python\Projects\pyecharts\.venv\Lib\site-packages\py4j\protocol.py", line 327, in get_return_value
    raise Py4JJavaError(
        "An error occurred while calling {0}{1}{2}.\n".
        format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 7 in stage 0.0 failed 1 times, most recent failure: Lost task 7.0 in stage 0.0 (TID 7) (CHINAMI-G8GC0PN executor driver): org.apache.spark.SparkException: Python worker failed to connect back.
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:281)
    at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:154)
    at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:158)
    at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:309)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:72)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:374)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:338)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
    at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:180)
    at org.apache.spark.scheduler.Task.run(Task.scala:147)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$5(Executor.scala:716)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:86)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:83)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:97)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:719)
    at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
    at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
    at java.base/java.lang.Thread.run(Thread.java:840)
Caused by: java.net.SocketTimeoutException: Timed out while waiting for the Python worker to connect back
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:263)
    ... 17 more

Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$3(DAGScheduler.scala:3122)
    at scala.Option.getOrElse(Option.scala:201)
    at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:3122)
    at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:3114)
    at scala.collection.immutable.List.foreach(List.scala:323)
    at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:3114)
    at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1303)
    at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1303)
    at scala.Option.foreach(Option.scala:437)
    at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1303)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:3397)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:3328)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:3317)
    at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:50)
    at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:1017)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2496)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2517)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2536)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2561)
    at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:1057)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:417)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:1056)
    at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:205)
    at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77)
    at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.base/java.lang.reflect.Method.invoke(Method.java:569)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:184)
    at py4j.ClientServerConnection.run(ClientServerConnection.java:108)
    at java.base/java.lang.Thread.run(Thread.java:840)
Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:281)
    at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:154)
    at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:158)
    at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:309)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:72)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:374)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:338)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
    at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:180)
    at org.apache.spark.scheduler.Task.run(Task.scala:147)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$5(Executor.scala:716)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:86)
    at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:83)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:97)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:719)
    at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
    at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
    ... 1 more
Caused by: java.net.SocketTimeoutException: Timed out while waiting for the Python worker to connect back
    at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:263)
    ... 17 more


进程已结束，退出代码为 1

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2026-04-06 16:37
关注
下午好🌅🌅🌅
本答案参考通义千问

你遇到的问题是 在 JDK 17 环境下运行 PySpark 4.1.1 时，出现 Python worker failed to connect back 的错误。这个问题通常与 JDK 版本、PySpark 和 Python 解释器之间的兼容性 有关。

🔍 问题分析

1. JDK 17 与 PySpark 的兼容性

PySpark 4.1.1 是基于 Spark 3.5.x 的版本，而 Spark 3.5.x 对 JDK 17 的支持并不完全稳定。
虽然 JDK 17 是 Java 的长期支持版本，但某些 Spark 版本（尤其是较旧的）可能没有经过充分的测试或修复以确保完全兼容。

2. Python Worker 连接失败的原因

报错信息：Python worker failed to connect back 表明 Spark 无法连接到 Python 子进程（worker）。
可能原因包括：
JDK 17 中的某些安全策略或网络配置 导致了连接超时。
PySpark 与 Python 解释器之间存在通信问题。
防火墙/杀毒软件阻止了本地连接。
Python 脚本中使用了不兼容的库或语法。

✅ 建议解决方案

1. 升级或降级 JDK 版本

强烈建议使用 JDK 8 或 JDK 11（LTS）以获得更好的 Spark 兼容性

🧾 操作步骤：

下载并安装 JDK 8 或 JDK 11
设置环境变量 JAVA_HOME 指向新安装的 JDK
重启终端或 IDE，重新运行脚本

# 设置 JAVA_HOME 示例（Windows） set JAVA_HOME="C:\Program Files\Java\jdk-11.0.16"

2. 使用兼容的 PySpark 版本

虽然你尝试过不同版本，但可以尝试以下推荐版本：

| PySpark Version | Spark Version | JDK Compatibility | |------------------|----------------|-------------------| | 3.4.1 | 3.4.x | JDK 8 / 11 | | 3.3.3 | 3.3.x | JDK 8 / 11 | | 3.2.2 | 3.2.x | JDK 8 |

🧾 修改 pip 安装命令：

pip install pyspark==3.4.1

3. 配置 PySpark 以避免连接超时

有时，Spark 在启动 Python worker 时会因为超时导致连接失败。可以通过调整配置来解决。

🧾 修改代码或配置文件：

from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("MyApp") conf.set("spark.driver.extraJavaOptions", "-Dio.netty.tryReflectionSetAccessible=true") # 用于 Netty 兼容 conf.set("spark.executor.extraJavaOptions", "-Dio.netty.tryReflectionSetAccessible=true") sc = SparkContext(conf=conf)

4. 检查 Python 脚本是否包含阻塞操作

如果你的 Python 脚本中有以下内容，可能会导致 Python worker 无法正常启动：

长时间阻塞操作（如 time.sleep()）
未处理的异常
未正确关闭的资源

🧾 修正示例：

def my_func(x): try: return x * 2 except Exception as e: print(f"Error: {e}") return None

5. 检查防火墙或杀毒软件设置

有时候，防火墙或杀毒软件会阻止本地回环地址（127.0.0.1）的连接，导致 Python worker 无法连接回来。

🧾 解决方法：

暂时禁用防火墙或杀毒软件
添加规则允许 spark 和 python 相关进程通过

🛠️ 最终建议列表

切换为 JDK 8 或 JDK 11，避免使用 JDK 17 与 PySpark 4.1.1 的组合。
使用兼容的 PySpark 版本（如 3.4.1）。
修改 Spark 配置，增加额外的 Java 选项，以避免潜在的 Netty 冲突。
检查 Python 脚本逻辑，避免阻塞或异常导致 worker 无法启动。
检查系统防火墙或杀毒软件设置，确保不会阻止本地连接。

📦 附录：推荐配置示例

✅ 推荐环境组合

| 组件 | 版本 | 备注 | |--------------|------------------|---------------------------| | JDK | JDK 8 或 JDK 11 | Spark 3.4.x 支持较好 | | PySpark | 3.4.1 | 与 JDK 8/11 兼容性高 | | Python | 3.8 ~ 3.11 | 与 PySpark 兼容性好 |

📌 总结

你的问题是由于 JDK 17 与 PySpark 4.1.1 的兼容性问题导致的。建议优先更换为 JDK 8 或 JDK 11，并使用兼容的 PySpark 版本。

如果还有其他报错或需要进一步调试，请提供完整的日志和代码片段，我可以帮你更精确地定位问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Pyspark综合案例（pyspark安装和java运行环境配置）
2023-09-12 13:38

小傅不想营业的博客 PySpark的编程模型可以归纳为：准备数据到RDD -> RDD。JDK 8.0 的安装包已上传资源报，希望可以帮助到大家！第二种方式是直接在Pycharm进行安装，如下图所示；、文本文件等，即：源数据 -> RDD ->PySpark支持通过。...
Python使用pySpark时数据报错(1)
2024-04-29 02:05

码农迟迟的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
Python应用实战案例-pyspark库从安装到实战保姆级讲解
2022-01-14 06:00

文宇肃然的博客 pyspark是python中的一个第三方库，相当于Apache Spark组件的python化版本（Spark当前支持Java Scala Python和R 4种编程语言接口），需要依赖py4j库（即python for java的缩略词），而恰恰是这个库实现了将python和...
windows-pyspark环境安装包
2025-01-16 18:13

在Windows环境下配置pyspark环境是进行大数据处理和分析的重要步骤，尤其是在使用Python语言进行开发时。为了让开发者能够顺利安装和配置pyspark，博文《Windows环境本地配置pyspark环境详细教程》详细地介绍了所需...
PySpark基础知识（python）
2025-09-13 10:14

StarPrayers.的博客 PySpark 是 Apache Spark 的 Python API，它允许开发者使用 Python 语言编写 Spark 应用程序，结合了 Python 的易用性和 Spark 的分布式计算能力，是处理大规模数据的强大工具。
Python第三方库PySpark框架基础应用（阶段六）
2023-03-21 22:17

挪威的螺蛳粉的博客 Spark作为全球顶级的分布式计算框架，支持众多的编程语言进行开发。而python语言则是Spark重点支持的对象。重点体现在python的第三方库PySpark。
排名前十的编程语言及其详细对比，为什么还要学JAVA？
2025-09-19 07:21

项目张雪峰之巅的博客摘要：本文分析了国内头部互联网公司（阿里、字节、华为、拼多多等）的...文章还对比了主流语言（Python、C++、Java等）的特点及适用领域，指出Python领跑AI、C++主导高性能场景，而Java在企业级开发中面临Go的竞争。
多个维度对 Java、Python、C#、Go 这四种主流编程语言进行比较
2026-05-04 16:34

bestcxx的博客本文对比了Java、Python、C#和Go四种编程语言的基本特性、性能、并发模型、语法、生态以及常用数据结构的实现。从语言类型看，Java和C#是静态强类型，Python是动态强类型，Go则是静态强类型且编译为原生机器码。性能...
（一）PySpark3：安装教程及RDD编程
2024-01-30 10:51

小楼一夜听春雨258的博客 PySpark允许使用Python编程语言来利用Spark的强大功能，使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择：PySpark：使用简洁而易学的Python作为编程语言，这使得PySpark学习难度...
【Python】PySpark
2023-08-27 19:27

杼蛘的博客 PySpark
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月6日

码龄粉丝数原力等级 --

python pyspark JDK java

3条回答默认最新

码龄粉丝数原力等级 --

🔍 问题分析

1. JDK 17 与 PySpark 的兼容性

2. Python Worker 连接失败的原因

✅ 建议解决方案

1. 升级或降级 JDK 版本

🧾 操作步骤：

2. 使用兼容的 PySpark 版本

🧾 修改 pip 安装命令：

3. 配置 PySpark 以避免连接超时

🧾 修改代码或配置文件：

4. 检查 Python 脚本是否包含阻塞操作

🧾 修正示例：

5. 检查防火墙或杀毒软件设置

🧾 解决方法：

🛠️ 最终建议列表

📦 附录：推荐配置示例

✅ 推荐环境组合

📌 总结

问题事件

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

python pyspark JDK java

3条回答 默认 最新

🔍 问题分析

1. JDK 17 与 PySpark 的兼容性

2. Python Worker 连接失败的原因

✅ 建议解决方案

1. 升级或降级 JDK 版本

🧾 操作步骤：

2. 使用兼容的 PySpark 版本

🧾 修改 pip 安装命令：

3. 配置 PySpark 以避免连接超时

🧾 修改代码或配置文件：

4. 检查 Python 脚本是否包含阻塞操作

🧾 修正示例：

5. 检查防火墙或杀毒软件设置

🧾 解决方法：

🛠️ 最终建议列表

📦 附录：推荐配置示例

✅ 推荐环境组合

📌 总结

问题事件

3条回答默认最新