structured streaming 时运行一段时间报临时文件不存在，想知道该临时文件是什么，有什么作用

Job aborted due to stage failure: Task 1 in stage 9.0 failed 4 times, most recent failure: Lost task 1.3 in stage 9.0 (TID 1018, 34.55.0.164, executor 0): java.lang.IllegalStateException: Error reading delta file /tmp/temporary-01933c45-4657-47d1-a0ab-651476698d08/state/0/1/1.delta of HDFSStateStoreProvider[id = (op=0, part=1), dir = /tmp/temporary-01933c45-4657-47d1-a0ab-651476698d08/state/0/1]: /tmp/temporary-01933c45-4657-47d1-a0ab-651476698d08/state/0/1/1.delta does not exist
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$updateFromDeltaFile(HDFSBackedStateStoreProvider.scala:410)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:362)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1$$anonfun$6.apply(HDFSBackedStateStoreProvider.scala:359)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:359)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:358)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap(HDFSBackedStateStoreProvider.scala:358)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.getStore(HDFSBackedStateStoreProvider.scala:265)
    at org.apache.spark.sql.execution.streaming.state.StateStore$.get(StateStore.scala:200)
    at org.apache.spark.sql.execution.streaming.state.StateStoreRDD.compute(StateStoreRDD.scala:61)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:108)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.FileNotFoundException: File /tmp/temporary-01933c45-4657-47d1-a0ab-651476698d08/state/0/1/1.delta does not exist
    at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611)
    at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:824)
    at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:601)
    at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:421)
    at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.<init>(ChecksumFileSystem.java:142)
    at org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:346)
    at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:769)
    at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$updateFromDeltaFile(HDFSBackedStateStoreProvider.scala:407)
    ... 21 more

structured streaming 时运行一段时间报临时文件不存在，想知道该临时文件是什么，有什么作用，spark 2.2.0版本，standalone模式，代码中未设置checkpointLocation，初次写spark 任务，请大佬支点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-21 07:59
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
请看👉 ：Structured Streaming知识梳理

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

有没有不使用自定义结构即可检索实体的方法？
2018-09-11 21:54

回答 1 已采纳 So you want a "general" type that can hold any type of entity? The datastore package already provi
spark structured steaming与kafka集成offset管理方式 kafka spark
2023-01-31 14:43

回答 2 已采纳 Spark Structured Streaming 集成 Kafka 的 offset 管理方式有如下几种：利用 Spark checkpoint 文件提交 offset 给 Kafka常用的方案
在Python中使用Golang方法时内存不足
2019-04-20 10:52

回答 1 已采纳 The answer seems quite simple actually. It is a problem with typecasting which I missed. The meth
Structured Streaming
2024-02-06 14:33

Francek Chen的博客 Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。本文介绍Structured Streaming的基本概念、编写Structured Streaming程序的基本步骤和输入输出操作。
去安装不会创建bin文件
2015-01-11 14:56

回答 1 已采纳 It really depends on where exactly is your main.go. It should be in $GOPATH/src/yourProject/main.
如何将目录（不仅仅是其中的文件）写入golang中的tar.gz文件
2012-11-28 17:36

回答 2 已采纳 You're only adding the filename to the tar, not the entire path. You need to keep the whole path
如何构建一段时间内发生的进程的测试？ php
2016-01-15 08:29

回答 1 已采纳 Based on implementation of your event mechanics. Like, when some event listener somewhere in your
StructuredStreaming知识总结
2022-06-06 12:01

南潇如梦的博客零基础学SparkStructuredStreaming
php多文件上传获取用户上传文件的确切数量，而不是数组中所有输入字段的数量 php
2014-08-21 10:26

回答 3 已采纳 Exactly as they told you, just simply use array_filter(). echo count(array_filter($_FILES['file']
在PHP中，fgetcsv将文件转换为一个数组 php
2016-01-27 19:33

回答 1 已采纳 From the PHP Docs: Note: If PHP is not properly recognizing the line endings when reading file
feof函数在文件结束前不返回false php
2014-08-12 05:14

回答 1 已采纳 Your question is invalid. false echos out as an empty string, and true echos out as 1.
Structured Streaming基础入门
2020-03-13 18:59

简映的博客 Structured Streaming 1. 回顾和展望 1.1. Spark 编程模型的进化过程 RDD rdd.flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect 针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较...
Golang坚持认为包作用域函数具有特定类型
2016-02-06 19:43

回答 1 已采纳 You can assign Foo to an anonymous variable of type FooType which will the compiler will complain
Structured Streaming 入门（整合、数据分析）
2023-03-16 00:52

y鱼鱼的博客针对任何流式应用处理框架（Storm、SparkStreaming、StructuredStreaming和Flink等）处理数据时，都要考虑语义，任意流式系统处理流式数据三个步骤： 1、Receiving the data：接收数据源端的数据采用接收器或其他...
Structured Streaming 快速入门系列（二）Structured Streaming 实战之 Souce
2020-09-19 17:02

Alienware^的博客文章目录Source从 HDFS 中读取数据案例结构产生小文件并推送到 HDFS流式计算统计 HDFS 上的小文件从 Kafka 中读取数据Kafka 的场景和结构Kafka 和 Structured Streaming 整合的结构需求介绍使用 Spark 流计算连接 ...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

structured streaming 时运行一段时间报临时文件不存在，想知道该临时文件是什么，有什么作用

1条回答 默认 最新

悬赏问题

1条回答默认最新