在集群中提交spark，卡住不动没反应

到这一步卡了很久，一直不动，jPS的各内容也有，怎么解决，网络连通性，spark也有，内存是4g，有两个从节点

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-09-24 16:32
关注
下午好🌅🌅🌅
本答案参考通义千问

在Spark集群中提交任务后卡住不动，可能是由多种原因引起的。根据你提供的信息：jps的各内容也有，网络连通性正常，Spark已安装，内存为4G，有两个从节点，我们可以逐步排查问题并提供解决方案。

一、可能的原因分析

资源分配不足

Spark任务需要足够的内存和CPU资源才能运行。
如果你的集群内存只有4G，而任务申请的资源过多，可能导致任务无法启动或卡住。

Driver或Executor未正常启动

虽然jps显示有进程，但可能Driver或Executor没有成功启动或处于等待状态。

网络通信问题

即使网络看似连通，也可能存在防火墙、端口限制等问题，导致Driver与Executor之间无法通信。

配置错误

spark-submit参数配置不正确（如--master、--executor-memory等）。

日志信息缺失

没有查看Spark的日志文件，导致无法定位具体错误。

二、详细排查步骤

1. 检查Spark日志文件

定位日志路径：

# 查看Spark日志目录（默认） /tmp/spark-<user>/logs/

查看Driver和Executor日志：

tail -f /tmp/spark-<user>/logs/spark-driver-*.log tail -f /tmp/spark-<user>/logs/spark-execute-*.log

重点关注内容：

ERROR 或 WARN 级别的日志
是否出现 Connection refused、No route to host、Timeout 等提示

2. 确认Driver和Executor是否启动

使用 jps 命令查看是否确实有以下进程：

DriverMain（Driver进程）
ExecutorRunner（Executor进程）

jps

输出示例：
1234 DriverMain 5678 ExecutorRunner

如果没有看到这些进程，说明任务可能没有成功提交或被阻塞。

3. 检查资源分配情况

查看Spark配置：

spark-submit --conf spark.driver.memory=2g --conf spark.executor.memory=1g your_app.py

确保内存合理分配：

如果总内存是4G，建议：
Driver: 1G
Executor: 1G * 2（两个从节点）

spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 1g \ --executor-memory 1g \ --num-executors 2 \ your_app.py

4. 检查网络连通性

验证各节点之间的通信：

ping <master-ip> ping <worker1-ip> ping <worker2-ip>

检查端口开放情况：

Spark默认使用端口：7077（Master）、4040（Driver UI）、8080（YARN RM）
使用 telnet 或 nc 测试端口：

telnet <master-ip> 7077 telnet <worker1-ip> 7077

如果失败，检查防火墙设置：

sudo ufw status sudo iptables -L

5. 检查YARN资源管理器

如果使用的是YARN模式，可以访问 YARN ResourceManager 的 Web UI：

URL: http://<rm-host>:8088

在页面上查看：

是否有Application被提交
是否有Executor被分配
是否有资源不足的警告

三、解决方案列表

查看Spark日志文件

定位日志路径，检查是否有错误信息
重点查看Driver和Executor日志

确认Driver和Executor是否启动

使用 jps 检查进程是否存在
如果没有，说明任务可能没有成功提交或被阻塞

调整Spark资源配置

合理分配Driver和Executor内存
示例配置：
spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 1g \ --executor-memory 1g \ --num-executors 2 \ your_app.py

检查网络连通性

验证节点间是否能ping通
检查端口是否开放
关闭防火墙或开放相关端口

查看YARN ResourceManager界面

确认Application是否被正确调度
检查资源是否足够

四、修改后的Spark提交命令示例

spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 1g \ --executor-memory 1g \ --num-executors 2 \ --conf spark.app.name="MyApp" \ --conf spark.logConf=true \ your_app.py

五、总结

| 问题 | 解决方案 | |------|----------| | 日志未查看 | 检查Spark日志文件，定位错误 | | Driver/Executor未启动 | 使用 jps 检查进程，排查任务提交问题 | | 内存不足 | 合理分配Driver和Executor内存 | | 网络不通 | 检查ping和端口连通性，关闭防火墙 | | YARN资源不足 | 查看ResourceManager UI，优化资源分配 |

如果你能提供具体的日志内容或错误信息，我可以进一步帮你定位问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么spark集群启动卡这不动了
2024-02-20 16:44

m0_74265557的博客
大数据领域Spark的集群网络优化与配置
2025-09-19 02:39

AI Native APP 开发前沿的博客零件入库（数据存储）→ 车间加工（Map任务）...本文的目的，就是帮你找到Spark集群中的"运输瓶颈"，并通过配置优化让数据"流"得更快。Spark集群的网络架构（工厂的"运输路线图"）；核心瓶颈点（Shuffle、数据本地化）
大数据必学！Hadoop+Spark 集群搭建全流程
2025-05-27 15:02

昭慕m的博客步骤 1：基础环境配置 (1) 修改...mkdir -p /user/your_username 检查权限：hdfs dfs -chmod 777 /user Spark任务卡住检查YARN资源分配：yarn node -list 调整Executor内存：spark-submit --executor-memory 2g ...
Spark -- 一次Task长时间卡住不动，一直Running的问题解决
2020-07-28 21:45

TheBiiigBlue的博客 spark提交任务后，某一个Stage卡住，通过spark界面看到，executor运行正常，卡住的Stage的task已经分配至executor，但task 一直在running并且数据量不大，task不结束，同时log中也无异常报出。 20/07/27 07:40...
spark使用yarn卡住_在YARN下使用Spark为MapR构建Apache Zeppelin
2020-05-19 22:15

danpu0978的博客 spark使用yarn卡住 Apache Zeppelin是基于Web的笔记本，可进行交互式数据分析。您可以使用Spark SQL，Scala，Hive，Flink，Kylin等创建漂亮的数据驱动，交互式和协作式文档。 Zeppelin可以通过简单易用的可视化...
Spark在降本增效中的一些思考
2024-01-19 09:03

鸿乃江边鸟的博客注意：我们批集群的CPU利用率在60%以上，引入zstd以后会增加CPU的使用率，而且在这种 long running的服务下，得增加。,但是这里请注意一点，该问题的提出点是基于 HDD 类型的磁盘的，因为我们现在是基于。
Spark集群搭建与PySpark开发环境配置
2025-12-26 16:47

Fkvision的博客详细记录了Spark Standalone和YARN模式下的集群启动流程，通过spark-submit提交任务并查看Web UI监控。同时介绍了Anaconda、Jupyter及PyCharm远程开发环境的配置方法，实现本地编写代码与集群协同运行，适合大数据...
大数据与人工智能融合：深度学习在大数据中的应用
2025-08-23 22:24

操作系统内核探秘的博客 大数据不是“躺在硬盘里的数字”，而是“能创造价值的资源”。深度学习不是“黑盒子魔法”，而是“能挖掘价值的工具”。当两者结合，我们能解决以前想都不敢想的问题——比如提前预测疾病、自动推荐商品、实时监控...
hadoop集群搭建start-all.sh启动一半卡住
2022-11-27 02:45

林喵头的博客卡住的原因一般是/etc/profile 坏境配置出问题或者是ssh-copy-id没3台机子互通没识别出当前主机名导致当前节点无法启动另外两台虚拟机的节点启动起来了认真检查一下免密或者是环境的问题希望能帮到你不喜勿...
Redis 安全策略在大数据应用中的部署要点
2025-10-02 10:14

AI架构全栈开发实战笔记的博客在大数据时代，Redis 不再是“辅助工具”，而是“核心数据枢纽”。...Redis 安全的本质，是“在大数据的复杂性中，守住最基本的边界”。守住了边界，你才能放心地用 Redis 支撑起更庞大的大数据应用。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月24日

码龄粉丝数原力等级 --

在集群中提交spark，卡住不动没反应

3条回答默认最新

码龄粉丝数原力等级 --

一、可能的原因分析

二、详细排查步骤

1. 检查Spark日志文件

2. 确认Driver和Executor是否启动

3. 检查资源分配情况

4. 检查网络连通性

5. 检查YARN资源管理器

三、解决方案列表

四、修改后的Spark提交命令示例

五、总结

问题事件

码龄粉丝数原力等级 --

在集群中提交spark，卡住不动没反应

3条回答 默认 最新

一、可能的原因分析

二、详细排查步骤

1. 检查Spark日志文件

2. 确认Driver和Executor是否启动

3. 检查资源分配情况

4. 检查网络连通性

5. 检查YARN资源管理器

三、解决方案列表

四、修改后的Spark提交命令示例

五、总结

问题事件

3条回答默认最新