spark读取不了本地文件是怎么回事

 textFile=sc.textFile("file:///home/hduser/pythonwork/ipynotebook/data/test.txt")
stringRDD=textFile.flatMap(lambda line:line.split(' '))
stringRDD.collect()

我此路径下是有test文件的：

图片说明

错误是：

 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 8.0 failed 4 times, most recent failure: Lost task 1.3 in stage 8.0 (TID 58, 192.168.56.103, executor 1): java.io.FileNotFoundException: File file:/home/hduser/pythonwork/ipynotebook/data/test.txt does not exist

。
。
。
Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1599)
    。
    。
    。
    Caused by: java.io.FileNotFoundException: File file:/home/hduser/pythonwork/ipynotebook/data/test.txt does not exist

而且发现若我把代码中test.txt随便改一个名字，比如ttest.txt（肯定是没有的文件）
错误竟然发生了变化：

 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/hduser/pythonwork/ipynotebook/data/tesst.txt
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:200)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.api.python.PythonRDD.getPartitions(PythonRDD.scala:53)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2092)
    at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:939)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:938)
    at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:153)
    at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:483)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)

注意：
此时我是以spark集群跑的：'spark://emaster:7077'
若是以本地跑就可以找到本地的那个test.txt文件
找hdfs文件系统的文件可以找到（在spark集群跑情况下）
。。。处由于字数显示省略了些不重要的错误提示，若想知道的话可以回复我
跪求大神帮助~感激不尽！！！

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
且_听_风_吟 2018-05-18 01:59
关注
如果程序中读取的是本地文件，那么，要在所有的节点都有这个数据文件，只在master中有这个数据文件时执行程序时一直报找不到文件

解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。

解决方式2：直接将数据文件上传到hdfs，达到数据共享。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容
daleHaven 2021-08-15 08:02

这位同学说的是正确的：你可以看一下知乎的这篇文章当spark读取一个非常大的本地文件时，读入内存后分区会自动分布到多个节点上吗？ - 知乎本地文件指的是在某一个节点的本地文件系统上，不是HDFS上面。如若不然是在执行action的时候再拷贝相应分… https://www.zhihu.com/question/36996853

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 09:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
大数据，spark ，doris mysql spark 大数据
2023-01-17 14:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
Spark textFile 不读取文件第一行 spark
2017-05-07 02:30

回答 3 已采纳跳过第一行: lines = sc.textFile('path_to_data') header = lines.first() lines = lines.filter(row =>
大数据实验实验六：Spark初级编程实践
2023-11-28 02:45

大数据实验实验六：Spark初级编程实践
关于spark离线程序读写本地文件的问题 java spark
2018-09-11 02:53

回答 4 已采纳读取数据文件的接口不是有SparkContext的textFile么，读取本地文件只是需要指明file://即可（但是要保证所有节点本地上都有该文件，路径一致），所以一般不会去读取本地的数据文件，
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 05:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 02:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
【Spark】读取本地文件
2024-04-29 03:12

five小点心的博客 spark任务读取本地csv文件。
Spark里的DAG是怎么回事？ hadoop spark 算法
2015-08-11 17:11

回答 1 已采纳就是一个类似思维导图那样的图结构
hive on spark 打开文件过多错误 hadoop hive spark
2022-05-19 11:51

回答 3 已采纳你用的beeline方式连接的吧 beeline连接是有限的当连接超出的时候就会出问题你尝试一下直接连接hivecli 应该会好一点
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 07:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
大数据技术原理及应用课实验7 :Spark初级编程实践
2024-01-16 12:03

在Spark Shell中，可以通过`textFile()`函数读取文件，例如读取本地文件"/home/hadoop/test.txt"，只需一行命令`sc.textFile("/home/hadoop/test.txt")`。若要读取HDFS上的文件，需要指定HDFS的URL，如`sc.textFile...
Spark读取本地文件写法
2022-11-15 08:45

sghuu的博客 spark入门
Spark读取本地文件
2023-08-14 12:04

海洋之心的博客有些时候我们希望直接读取本地文件进行处理，那么我们可以使用 `textFile` 这个方法，这个方法可以将指定路径的文件将其读出，然后转化为Spark中的RDD数据类型。
大数据编程实验一：HDFS常用操作和Spark读取文件系统数据
2022-10-30 08:26

-北天-的博客 大数据编程实验，利用本地搭建的伪分布式集群进行HDFS常用操作和Spark读取文件系统数据的操作。
没有解决我的问题, 去提问

悬赏问题

¥40 selenium访问信用中国
¥15 电视大赛投票系统的c语言代码怎么做
¥20 在搭建fabric网络过程中遇到“无法使用新的生命周期”的报错
¥15 Python中关于代码运行报错的问题
¥500 python 的API，有酬谢
¥15 软件冲突问题，软件残留问题
¥30 有没有人会写hLDA，有偿求写，我有一个文档，想通过hLDA得出这个文档的层次主题，有偿有偿！
¥50 有没有人会写hLDA，有偿求写，我有一个文档，想通过hLDA得出这个文档的层次主题，有偿有偿！
¥15 alpha101因子里哪些适合crypto？
¥15 ctrl win alt 键一直触发

spark读取不了本地文件是怎么回事

2条回答 默认 最新

悬赏问题

2条回答默认最新