Spark读取错误PrematureEOFfrominputStream

:主要问题java.io.EOFException: Premature EOF from inputStream
使用textFile或者newAPIHadoopFile都出现这个错误
写spark读取数据的时候一直报这个错误。
连count，repartition都过不去。数据读的比平常慢的多。
看数据文件，应该是很均匀的，应该不是数据倾斜的问题了吧。
下面是报错信息：

 16/09/15 23:27:57 ERROR yarn.ApplicationMaster: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 41 in stage 0.0 failed 4 times, most recent failure: Lost task 41.3 in stage 0.0 (TID 5736, dn076179.heracles.sohuno.com): java.io.EOFException: Premature EOF from inputStream
    at com.hadoop.compression.lzo.LzopInputStream.readFully(LzopInputStream.java:75)
    at com.hadoop.compression.lzo.LzopInputStream.readHeader(LzopInputStream.java:114)
    at com.hadoop.compression.lzo.LzopInputStream.<init>(LzopInputStream.java:54)
    at com.hadoop.compression.lzo.LzopCodec.createInputStream(LzopCodec.java:83)
    at org.apache.hadoop.mapreduce.lib.input.LineRecordReader.initialize(LineRecordReader.java:102)
    at org.apache.spark.rdd.NewHadoopRDD$$anon$1.<init>(NewHadoopRDD.scala:133)
    at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:104)
    at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:66)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:70)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:70)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:744)
    Driver stacktrace:
org.apache.spark.SparkException: Job aborted due to stage failure: Task 41 in stage 0.0 failed 4 times, most recent failure: Lost task 41.3 in stage 0.0 (TID 5736, dn076179.heracles.sohuno.com): java.io.EOFException: Premature EOF from inputStream
    at com.hadoop.compression.lzo.LzopInputStream.readFully(LzopInputStream.java:75)
    at com.hadoop.compression.lzo.LzopInputStream.readHeader(LzopInputStream.java:114)
    at com.hadoop.compression.lzo.LzopInputStream.<init>(LzopInputStream.java:54)
    at com.hadoop.compression.lzo.LzopCodec.createInputStream(LzopCodec.java:83)
    at org.apache.hadoop.mapreduce.lib.input.LineRecordReader.initialize(LineRecordReader.java:102)
    at org.apache.spark.rdd.NewHadoopRDD$$anon$1.<init>(NewHadoopRDD.scala:133)
    at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:104)
    at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:66)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:70)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:70)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:744)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-09-15 15:56
关注
https://my.oschina.net/iuranus/blog/359482

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
求助！spark读取文件问题 spark
2017-05-12 07:18

回答 1 已采纳。。。。。。。。。。。。。。。。。。。
hive on spark 打开文件过多错误 hadoop hive spark
2022-05-19 19:51

回答 3 已采纳你用的beeline方式连接的吧 beeline连接是有限的当连接超出的时候就会出问题你尝试一下直接连接hivecli 应该会好一点
spark 读取本地文件
2022-08-01 11:02

this is a book的博客 spark读取本地文件
Spark textFile 不读取文件第一行 spark
2017-05-07 10:30

回答 3 已采纳跳过第一行: lines = sc.textFile('path_to_data') header = lines.first() lines = lines.filter(row =>
spark读取不了本地文件是怎么回事 spark
2018-05-18 09:25

回答 2 已采纳如果程序中读取的是本地文件，那么，要在所有的节点都有这个数据文件，只在master中有这个数据文件时执行程序时一直报找不到文件解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。
Spark-2.3.0环境搭建安装在启动spark时出现错误 spark
2022-10-16 15:59

回答 1 已采纳这里提示的是你的spark里边的配置文件spark-env.sh 里边的hadoop路径写错了这里应该是在hadop-2.7.5/etc/hadoop还有就是你的scala的路径也写错了，你在检查
Spark读取gz文件时忽略报错的文件
2022-03-08 13:03

upupfeng的博客背景业务需要解析HDFS上的大量文件，文件使用gzip压缩，使用...这个错误的原因就是其中有一个gz文件有误，不能被读取，程序直接抛出错误。解决办法执行解析程序前，写程序/脚本去检测文件，将异常的文件移走。之
虚拟机里安装spark时报错 hadoop spark 大数据
2022-12-07 13:39

回答 1 已采纳缺少jar包：org/slf4j/impl/StaticLoggerBinder，添加一下slf4j-nop-xxx.jar
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 17:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
spark读取Excel文件：
2022-06-23 16:28

熬夜的小王的博客 spark读取Excel文件
Hadoop和spark hadoop spark
2023-03-01 10:46

回答 2 已采纳 Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享
Spark 读取 Clickhouse
2021-11-30 10:54

chaos jin的博客预过滤加载 val tableName = s"(SELECT CAST(longitude AS DOUBLE) longitude , CAST(latitude AS DOUBLE) latitude FROM location_log WHERE acquisition_time ... val location: DataFrame = spark.read .format.
spark 读取 mysql大表优化
2022-06-19 13:50

是菜鸟啊的博客如果采用默认的spark读取jdbc的方式的话，会创建一个连接，一次性读取200w的数据，会导致java虚拟机崩溃，或者GC超时导致任务失败经一段时间的测试，最终解决了这个问题。方案如下：会生成多个where 子句进行 ...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

Spark读取错误PrematureEOFfrominputStream

1条回答 默认 最新

悬赏问题

1条回答默认最新