ShadowNinjia 2025-04-03 20:06 采纳率: 0%

spark on yarn报错

在pycharm上提交spark任务到yarn上运行时报错：
org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1743237194606_0003 to YARN : root is not a leaf queue
以下是代码：

# coding:utf8
from pyspark import SparkConf, SparkContext
from defs_19 import city_with_category
import json
import os
os.environ['HADOOP_CONF_DIR'] = "/export/server/hadoop/etc/hadoop"

if __name__ == '__main__':
    conf = SparkConf().setAppName("test-yarn-1").setMaster("yarn")
    conf.set("spark.submit.pyFiles", "defs_19.py")
    sc = SparkContext(conf=conf)

    file_rdd = sc.textFile("hdfs://node1:8020/input/order.text")
    jsons_rdd = file_rdd.flatMap(lambda line: line.split("|"))
    dict_rdd = jsons_rdd.map(lambda json_str: json.loads(json_str))
    beijing_rdd = dict_rdd.filter(lambda d: d['areaName'] == "北京")
    category_rdd = beijing_rdd.map(city_with_category)
    result_rdd = category_rdd.distinct()
    print(result_rdd.collect())

# coding:utf8
def city_with_category(date):
    return date['areaName'] + '_' + date['category']

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-04-03 21:07

关注

让【宝码香车】来帮你解答，本回答参考DeepSeek编写，并整理提供。
如果还有疑问可以点击头像关注私信或评论。如果答案让您满意，请采纳、点赞、关注，非常感谢！

# Spark on YARN 报错解决方案

错误分析

您遇到的错误是：

org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1743237194606_0003 to YARN : root is not a leaf queue

这个错误表明您在提交Spark任务到YARN时，指定的队列配置有问题。YARN队列必须是叶子队列(leaf queue)，而您可能尝试使用了非叶子队列(如root队列)。

解决方案

方法1：指定正确的YARN队列

修改您的SparkConf配置，添加队列参数：

conf = SparkConf().setAppName("test-yarn-1").setMaster("yarn")
conf.set("spark.submit.pyFiles", "defs_19.py")
# 添加以下配置，指定一个有效的叶子队列
conf.set("spark.yarn.queue", "default")  # 使用default队列或其他已配置的叶子队列

方法2：检查YARN队列配置

查看YARN队列配置：
```
yarn queue -list
```
或者检查capacity-scheduler.xml配置文件中的队列结构

方法3：完整配置示例

以下是修改后的完整代码示例：

# coding:utf8
from pyspark import SparkConf, SparkContext
from defs_19 import city_with_category
import json
import os
os.environ['HADOOP_CONF_DIR'] = "/export/server/hadoop/etc/hadoop"

if __name__ == '__main__':
    conf = SparkConf().setAppName("test-yarn-1").setMaster("yarn")
    conf.set("spark.submit.pyFiles", "defs_19.py")
    conf.set("spark.yarn.queue", "default")  # 指定队列
    sc = SparkContext(conf=conf)

    file_rdd = sc.textFile("hdfs://node1:8020/input/order.text")
    jsons_rdd = file_rdd.flatMap(lambda line: line.split("|"))
    dict_rdd = jsons_rdd.map(lambda json_str: json.loads(json_str))
    beijing_rdd = dict_rdd.filter(lambda d: d['areaName'] == "北京")
    category_rdd = beijing_rdd.map(city_with_category)
    result_rdd = category_rdd.distinct()
    print(result_rdd.collect())

其他可能需要的配置

如果仍然有问题，可以尝试添加以下配置：

conf.set("spark.hadoop.yarn.resourcemanager.scheduler.address", "node1:8030")
conf.set("spark.hadoop.yarn.resourcemanager.address", "node1:8032")

请根据您的实际YARN集群配置调整上述地址和端口。

报告相同问题？

关注问题

记录配置spark on yarn出现的报错处理
2025-08-27 18:50

陌名_的博客搭建spark on yarn时提交sparkpi测试的报错处理
Spark on Yarn 多机集群部署
2025-02-22 17:40

晓夜残歌的博客 Spark on Yarn 多机集群部署
Spark深入解析（八）：Spark整合YARN报错或无法查看日志
2020-04-26 23:18

老王的小知识的博客目录如果整合Yarn报错或无法查看log需做如下操作如果要整合YARN历史服务器和Spark历史服务器，则还需要如下操作配置历史日志服务器本地调试如果整合Yarn报错或无法查看log需做如下操作 1.修改hadoop的yarn-site.xml...
Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践
2024-11-06 19:57

天冬忘忧的博客本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上，详细介绍 Spark 的 YARN 集群搭建过程，以及在 YARN 模式下不同 deploy mode ...Spark on YARN 这一重要的大数据技术应用。
Spark on YARN部署
2025-02-01 18:12

一张假钞的博客目前各大数据组件部署其实都比较简单，几乎接近开箱即用。此处只记录部署时遇到的问题。
spark on yarn运行日志查看
2022-08-11 17:32

korry24的博客 spark日志信息查看，shell提交spark程序写出日志信息到指定路径
Spark on Yarn遇到的几个问题
2017-11-26 22:39

zsd_31的博客 Spark的on Yarn模式。其资源分配是交给Yarn的ResourceManager来进行管理的。可是眼下的Spark版本号，Application日志的查看，仅仅能通过Yarn的yarn logs命令实现。在部署和执行Spark Application的过程中，...
spark on yarn集群的安装与搭建
2023-04-11 09:37

爱做梦的小鱼。的博客 7.出现报错（For more detailed output, check the application tracking page: ...注：(搭建spark on yarn 需要jdk，hadoop环境，其搭建可参照前面jdk和hadoop的安装与搭建).4.进入spark的conf目录下。
spark on yarn client和spark on yarn cluster区别
2020-04-05 22:49

jim8973的博客 spark on yarn 的优势是每个Spark executor作为一个Yarn容器(container)运行，Spark可以使得多个Task在同一个容器(container)里面运行；有两种模式：yarn-client和yarn-cluster yarn-client:driver运行在client端；...
PYSPARK ON YARN报错集合
2022-08-05 13:23

不吃天鹅肉的博客 pyspark报错整理
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月3日