spark on yarn时 spark侧的任务监听日志是需要做其他处理吗

最近发现一个小问题，用spark_submit提交执行spark on yarn任务的时候，当任务结束，总是会收到org.apache.spark.SparkException报错，报错内容为当前任务在yarn上已结束，我就觉得很怪异，是我的配置问题吗？

正常来说任务结束不因是正常结束进程吗？

今天特意搞了一个小Demo，复现了这个问题，有没有朋友给一些提点。

首先代码是一个wordcount

object TestOnYarn {
  def main(args: Array[String]): Unit = {
    val session = SparkSession.builder().master("local[*]").appName("testyarn").getOrCreate()
    session.sparkContext.setLogLevel("ERROR")

    val da = session.sparkContext.parallelize(List("111", "222", "333"))

    da.map((_,1)).reduceByKey(_+_).foreach(println(_))

    session.stop()

  }
}

我提交任务的命令如下

/opt/spark-2.1.1/bin/spark-submit --class other.TestOnYarn --master yarn --deploy-mode cluster --executor-memory 1g --executor-cores 1 --num-executors 1 /opt/gw.jar

当任务开始运行之后前面都很正常，但是最后一段就开始报错了

此处之前都是正常的输出
22/05/21 13:23:17 INFO Client: Application report for application_1653107941567_0002 (state: FAILED)
22/05/21 13:23:17 INFO Client: 
         client token: N/A
         diagnostics: Application application_1653107941567_0002 failed 2 times due to AM Container for appattempt_1653107941567_0002_000002 exited with  exitCode: -1000
For more detailed output, check application tracking page:http://hdp3:8088/cluster/app/application_1653107941567_0002Then, click on links to logs of each attempt.
Diagnostics: File does not exist: hdfs://hdp1/user/root/.sparkStaging/application_1653107941567_0002/gw.jar
java.io.FileNotFoundException: File does not exist: hdfs://hdp1/user/root/.sparkStaging/application_1653107941567_0002/gw.jar
        at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1309)
        at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1301)
        at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
        at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1301)
        at org.apache.hadoop.yarn.util.FSDownload.copy(FSDownload.java:253)
        at org.apache.hadoop.yarn.util.FSDownload.access$000(FSDownload.java:63)
        at org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:361)
        at org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:359)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)
        at org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:358)
        at org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:62)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)

Failing this attempt. Failing the application.
         ApplicationMaster host: N/A
         ApplicationMaster RPC port: -1
         queue: default
         start time: 1653110584051
         final status: FAILED
         tracking URL: http://hdp3:8088/cluster/app/application_1653107941567_0002
         user: root
Exception in thread "main" org.apache.spark.SparkException: Application application_1653107941567_0002 finished with failed status
        at org.apache.spark.deploy.yarn.Client.run(Client.scala:1180)
        at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1226)
        at org.apache.spark.deploy.yarn.Client.main(Client.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:743)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
22/05/21 13:23:17 INFO ShutdownHookManager: Shutdown hook called
22/05/21 13:23:17 INFO ShutdownHookManager: Deleting directory /tmp/spark-07bdc687-4c57-4c5c-9de5-1b0ba8b28ea0

我在yarn上看到的也是这个任务最终的状态是FAILED

但是！我用yarn logs命令拉去下任务日志却发现任务实际上已经成功结束了

此外我去取spark的日志服务上也拉取了该任务的日志，日志上也是显示任务成功了

因此对前面提到的spark_submit日志输出报错的现象有些费解？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

spark on yarn 问题 spark
2022-05-30 02:37

回答 3 已采纳仔细看日志信息，提示0个datanode了，也就是你的hdfs有问题，datanode都没起来，先去确定hdfs集群情况吧
刚搭建好的测试环境提交spark no yarn 任务报如下错误，有人遇到过吗 hadoop spark
2022-05-15 19:13

回答 1 已采纳之前碰到过这个报错，当时修改pom文件添加了一个依赖 <dependency> <groupId>org.apache.hadoop</groupId>
spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
spark on yarn配置
2021-11-19 21:26

一加六的博客在安装好spark后修改spark-env.sh 若没有将模板文件改名为此名称在spark安装目录下的conf找到spark-env.sh 添加HADOOP_HOME和HADOOP_CONF_DIR让其加载yarn-site.xml文件配置修改spark-defaults.conf 同在...
配置hive on spark测试，创建表，insert测试效果报错，如何解决？ hadoop hive spark 有问必答
2022-04-21 01:37

回答 2 已采纳你在b站视频下面看看评论区，评论区下面的前几个有大佬提供了解决思路。我当时这里报错了，我用了评论区给的方法成功了。如果评论区的方法没有解决，说一个最不好听的方法，你把hive和spark重新装一遍。我
Spark SQL应用通过Java代码提交至Yarn集群上 java spark
2022-10-11 15:35

回答 1 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：Spark SQL 通过什么来实现？
spark 调用SparkPi时，显示拒绝连接 hadoop spark 大数据
2023-03-15 15:46

回答 1 已采纳这篇文章：spark 运行自带样例SparkPi、spark-examples报错也许有你想要的答案，你可以看看
Spark On Yarn任务超时监控-Shell
2018-11-21 13:34

PaperAgent的博客最近在用spark跑任务，发现有些任务实际已经执行完成，但是就是占用资源，结束不了，用shell写了个yarn上application耗时监控脚本，超时自动杀掉。 #!/bin/bash #current_time=`date +'%Y-%m-%d %H:%M:%S'` ...
spark-submit提交py文件，一直提示资源不足~~ hadoop python spark
2021-07-16 08:59

回答 1 已采纳第一种：是spark节点的内存满了，加大执行内存，内存可以在spark的配置文件—>spark-env.sh中可以看到。这个配置文件路径在：/usr/local/spark-2.4.0-bin-
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
spark 如何多个application同时运行不报错 spark
2018-02-23 01:04

回答 6 已采纳在spark的Job Scheduling中介绍了spark多个任务同时执行，相关链接为： https://spark.apache.org/docs/1.2.0/job-scheduli
spark on yarn 完全分布式_深入浅出理解 Spark 部署与工作原理
2020-11-22 11:12

weixin_39915308的博客一、Spark 概述Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架，目前已成为 Apache 软件基金会的顶级开源项目。Spark 支持多种编程语言，包括 Java、Python、R 和 Scala，同时 Spark 也支持 Hadoop 的...
spark问题几张截图 1111111111 spark 有问必答
2021-09-16 10:51

回答 2 已采纳先按步骤把环境搭建好来，然后运行代码打包。
Spark源码——Spark on YARN SparkSubmit初始化、ApplicationMaster的启动注册
2021-01-02 17:53

Southwest-的博客我们知道，在YARN资源管理上提交Spark应用程序之后，首先会执行以下步骤：第一步，启动ApplicationMaster 第二步，ApplicationMaster启动之后，向ResourceManager申请资源（也就是需要的Container）第三步，在...
Spark任务提交至YARN运行的3种方式与Mapreduce提交任务的几种形式
2022-01-06 19:02

xby18772963985的博客 Spark作为新一代计算平台的闪亮明星，在我们的大数据平台中具有非常重要的作用，SQL查询、流计算和机器学习等场景都能见到它的身影，可以说平台应用的数据处理、...在大数据平台中，Spark是以Spark on YARN的方式运行
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月21日

悬赏问题

¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题
¥30 酬劳2w元求合作写文章
¥15 在现有系统基础上增加功能
¥15 远程桌面文档内容复制粘贴，格式会变化
¥15 这种微信登录授权谁可以做啊
¥15 请问我该如何添加自己的数据去运行蚁群算法代码
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”

spark on yarn时 spark侧的任务监听日志是需要做其他处理吗

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新