spark读取不了本地文件是怎么回事
 textFile=sc.textFile("file:///home/hduser/pythonwork/ipynotebook/data/test.txt")
stringRDD=textFile.flatMap(lambda line:line.split(' '))
stringRDD.collect()

我此路径下是有test文件的:

图片说明

错误是:

 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 8.0 failed 4 times, most recent failure: Lost task 1.3 in stage 8.0 (TID 58, 192.168.56.103, executor 1): java.io.FileNotFoundException: File file:/home/hduser/pythonwork/ipynotebook/data/test.txt does not exist

。
。
。
Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1599)
    。
    。
    。
    Caused by: java.io.FileNotFoundException: File file:/home/hduser/pythonwork/ipynotebook/data/test.txt does not exist

而且发现若我把代码中test.txt随便改一个名字,比如ttest.txt(肯定是没有的文件)
错误竟然发生了变化:

 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/hduser/pythonwork/ipynotebook/data/tesst.txt
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:200)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.api.python.PythonRDD.getPartitions(PythonRDD.scala:53)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2092)
    at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:939)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:938)
    at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:153)
    at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:483)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)

注意:
此时我是以spark集群跑的:'spark://emaster:7077'
若是以本地跑就可以找到本地的那个test.txt文件
找hdfs文件系统的文件可以找到(在spark集群跑情况下)
。。。处由于字数显示省略了些不重要的错误提示,若想知道的话可以回复我
跪求大神帮助~感激不尽!!!

0

1个回答

如果程序中读取的是本地文件,那么,要在所有的节点都有这个数据文件,只在master中有这个数据文件时执行程序时一直报找不到文件

解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。

解决方式2:直接将数据文件上传到hdfs,达到数据共享。

0
CSDN_Black
csdn_black 多谢
大约一年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
允许读取本地文件
用于war3 地图中,游戏进度的保存和读取,是ORPG地图常用的保存文件。
VS2010编写的服务
求高手帮忙看下,断线报警器启动不了是怎么回事
js使用FSO读取本地文件信息
js使用FSO读取本地文件信息js使用FSO读取本地文件信息js使用FSO读取本地文件信息js使用FSO读取本地文件信息
unigui_ajax读取本地文件信息
unigui_ajax读取本地文件信息 unigui_ajax读取本地文件信息
Android 本地文件的存储和读取
代码简单,逻辑清晰,即学即用
CAD标志框促销宣传促销
怎么回事呀,一直上传不了,我快崩溃了。
CJKOS_V4621_Palm\
~现在显示获取不了文章,没有设置权限,不知道怎么回事了
spark/hadoop读取s3所需要的外部依赖包
aws-java-sdk-1.7.4.jar hadoop-aws-2.7.2.jar 引入代码即可在读写中国区亚马逊s3
tomcat读取本地文件
tomcat读取本地文件
js读写本地文件js读写本地文件
js读写本地文件js读写本地文件js读写本地文件js读写本地文件js读写本地文件
读取xls和xlsx,pom文件
使用Java读取xlxs文件和写入txt文件,并将数据写入到本地文件 使用maven项目,所需pom文件
android中读取本地文件demo
本demo实现了读取本地SD卡中的文件,word或者pdf,显示成一个listview中,可以打开浏览weord内容,可以进行搜索,搜索想要看的文件。
spark读取hbase数据,并使用spark sql保存到mysql
使用spark读取hbase中的数据,并插入到mysql中
纯jsp本地file文件读取小程序
纯jsp本地file文件读取小程序,实现简单的添加、读取、删选货物的功能
简单的spark 读写hive以及mysql
简单的spark加载HIVE MYSQL 数据,以及简单的进行往mysql,hive写入数据
spark连接rabbitmq java代码 消费者consumer
spark连接rabbitmq java代码 消费者consumer
java 通过文件实现缓存
java实现缓存可以通过读取本地文件的方式实现,改代码就是通过读取本地文件实现缓存的简单例子
spark jdbc 读取并发优化
spark scada jdbc连接数据库读取数据的并发优化方法。
读取本地文件
轻松打开文件框
spark sftp
spark 读取sftp文件 下面是用法 // Construct Spark dataframe using file in FTP server DataFrame df = spark.read(). format("com.springml.spark.sftp"). option("host", "SFTP_HOST"). option("username", "SFTP_USER"). option("password", "****"). option("fileType", "json"). load("/ftp/files/sample.json") // Write dataframe as CSV file to FTP server df.write(). format("com.springml.spark.sftp"). option("host", "SFTP_HOST"). option("username", "SFTP_USER"). option("password", "****"). option("fileType", "json"). save("/ftp/files/sample.json");
spark 连接 mongodb 使用例子
这个主要是spark 用JAVA语言连接mysql , mongodb 数据库的 CRUD 例子;附件有运行使用的截图,运行入口在Test目录的测试用例;仅供参考!
王家林+Spark+GraphX大规模图计算和图
王家林+Spark+GraphX大规模图计算和图 挺不错的
使用Spark(jdbc)从MySQL读取和保存数据.
使用Spark(jdbc)从MySQL读取和保存数据.
手机浏览本地文件(word版)
手机浏览本地文件,主要应用JSR75包对手机本地文件进行读取
Android读取中文文件乱码解决方法
Android读取中文文件乱码解决方法,读取本地文件的时候,读取网络资源的时候进行编码
对象序列化和反序列化是怎么回事
NULL 博文链接:https://chenfengcn.iteye.com/blog/375830
SparkSQL HDFS JAVA调用完整实例
SparkSQL HDFS JAVA调用完整实例,使用Maven管理,项目很小,里面实例很多。敬请下载。
Oracle的分区是怎么回事Oracle的分区是怎么回事
Oracle的分区是怎么回事Oracle的分区是怎么回事
rocketmq-spark-0.0.1-SNAPSHOT.jar
由于spark streaming不支持从rocketmq中读取消息,本jar包是基于spark2.3.2和rocketmq4.2对官方源码进行编译的,有几个scala的bug已经解决。好东西拿出来大家分享,无需积分可以找我要哈。
AJAX实现读取本地文本文档内容并展示在网页上
使用AJAX技术来实现读取本地文本文档内容,然后将读取到的内容显示在网页上
UnityWav-master
WavUtility是对录音数据的保存和读取,可以保存为本地文件.wav或者byte数组进行传输。
exfat补丁 解决 U盘 exfat文件系统无法读取问题
exfat补丁 解决 U盘、硬盘 exfat文件系统无法读取问题。
SDL读文件播放视频
这是一个SDL读取本地文件显示视频代码,开发平台是VS,C++
VBA提取文件内容
遍历指定文件夹,根据文件夹内文件内容,取得文件信息,并汇总在一个EXCEL中
javascript 读取本地文件
Javascript读取本地的.txt文件
CSokect文件传输
基于Visual C++ 6.0 MFC CSokect文件传输
spark解析csv文件,存入数据库
csv文件用java太麻烦了,spark很简单,简单到怀疑人生
java实现SparkSteamming接受发送Kafka消息
java实现SparkSteamming接受发送Kafka消息
读取文件数据并解析成bean实体类
很多时候需要文件做数据交互,接收到文件后需要对文件解析成bean实体类,这里提供的是工具类,任意文件转任意实体都可以,只要简单的配置一下Class类,很实用
dev 读取本地文件
非常好用的dev控件,读取本地资源,树状菜单显示,节点图片
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据视频下载不了 什么是区什么是区块链技术

相似问题

1
spark sql如何执行delete
2
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
0
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
2
Spark中如何将多个LabeledPoint合并成一个LabeledPoint,用以训练分类模型
1
如何将spark读入的txtRDD文本转为Vector格式
1
spark的dataframe中如何提取某一列数据的类型做判断?
1
java里调用scala的HashMap[Long,Long],返回的是HashMap[Object,Object]?
1
求算法,一篇论文中的spark随机森林并行问题。
1
spark on yarn 8088界面只有一个程序是Running状态,其他都是ACCEPTED状态
1
使用livy提交spark任务失败
2
当jar在hdfs的时候提交spark job报错
2
为什么Spark只会惰性计算RDD?
2
在Java web中怎么提交一个spark job任务?
1
spark shell在存运算结果到hdfs时报java.io.IOException: Not a file: hdfs://mini1:9000/spark/res
1
spark一般任务的初始并行度怎么确定?
1
spark pair RDD创建操作
2
spark submit 提交集群任务后,spark Web UI界面不显示,但是有4040界面,显示local模式
1
Spark提交作业为什么一定要conf.setJars(),它的具体作用到底是什么?
2
如何用spark实现:编写spark程序调用外部程序或者调用动态链接库函数,对批量文件进行处理?
1
spark读取kafka数据, 缓存当天数据