hadoop 丢失数据文件问题

问题现象:
执行mapreduce程序(根据增量文件对全量文件实行更新操作)时,设置参数mapreduce.job.reduces=200,程序执行成功后,结果目录下面除了_SUCCESS文件外,总共只有198个文件(每个文件300多M),缺少文件part-r-00119及part-r-00125. 重新执行程序后,正确生成200个结果文件。

问题分析过程:
1. 查看8088界面,发现作业运行成功,200 个reduce task 均已成功执行,其中reduce_119及reduce_125 任务均为一次执行成功,没有出现failed及killed;
2. 查看yarn日志,根据File System Counters中记录信息,Reduce output records=212759958大于实际结果文件中的记录条数;
3. 查看reduce 119 task的日志信息,发现以下信息
2017-03-10 08:23:15,560 INFO [main] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter: Saved output of task 'attempt_1478381467748_149540_r_000119_0' to hdfs://mycluster/XXX/XXX/XXX/20170227/_temporary/1/task_1478381467748_149540_r_000119
2017-03-10 08:23:15,620 INFO [main] org.apache.hadoop.mapred.Task: Task 'attempt_1478381467748_149540_r_000119_0' done.
上述信息表明reduce_119 task已经成功生成结果临时文件并将成功执行的状态返回给了APPMASTER;
4. 继续分析reduce_119 task的结果临时文件在之后为何会丢失。
到该task所运行的datanode节点找到该临时文件的某一BOLOCK NAME,并到namenode节点查看该块的所有操作信息,
发现2017-03-10 08:26时该块信息被删除(该task运行成功时间为2017-03-10 08:23,整个JOB运行成功时间为2017-03-10 09:30左右) PS:文件进行MV操作时,BOLOCK NAME不会发生变化;
5. 查看源码发现,task生成的结果临时文件被移动至目标结果目录采用的是rename操作;
6. 做了以下测试分析:
执行相同程序,在reduce_121 task执行成功后(整个job并未执行完成), 手动将该task生成的结果临时文件hdfs://mycluster/XXX/XXX/XXX/20170227/_temporary/1/task_1478381467748_149540_r_000121进行删除;神奇的事情发生了,整个job作业运行成功了,但是结果目录缺少了part-r-00121这个文件,且File System Counters中记录的输出结果信息是包含part-r-00121这个文件记录条数的

分析到了这里实在是不知道为啥结果临时文件的block信息被删除了,

跪求大神帮忙分析分析问题原因,为啥mapreduce执行过程中会丢失结果文件;
PS:
1. hadoop 版本:hadoop 2.2.0
2. 操作系统 red hat
3. 程序执行过程中,不存在人为删除reduce_119 和 reduce_125 task 临时结果文件的情况

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Hadoop 写数据或上传文件问题

Hadoop写数据的过程中 怎么得到所申请的blockid,求大神们帮助啊。。。。。

hadoop mapreduce 数据分析 丢数据

最近发现hadoop的mapreduce程序会丢数据,不知道是什么原因,请教各位: hadoop环境,通过mapreduce程序分析hdfs上的数据,一天的数据是按小时存储的,每一个小时一个文件价,数据格式都是一样的,现在如果在16点这个文件价里有一条数据a,如果我用mr分析一整天的数据,数据a则丢失,如果单独跑16点这个文件夹里的数据,则数据a不会丢失,可以正常被分析出来,只要一加上其他时间段的数据,数据a就分析不出来,请问这是为什么? 最近在学习spark,我用spark程序跑同样的数据,整天的,不会有丢失的问题,的所以我肯定不是数据格式的问题 希望大家能帮我解决这个hadoop的问题,谢谢啦

hadoop 本地文件不能显示

我将文件上传到hdfs中了,但为什么在本地的datan ode中什么也看不见呢?求解 <property> <name>dfs.namenode.dir</name> <value>/home/du/name</value> </property> <property> <name>dfs.datanode.dir</name> <value>/home/du/data</value> </property><span></span> 在/tmp中有2个.txt文件 du@du-Vostro-1088:~/hadoop-1.2.1$ bin/hadoop fs -ls / Found 3 items drwxr-xr-x - du supergroup 0 2014-12-11 22:52 /du drwxr-xr-x - du supergroup 0 2014-12-11 22:52 /hello drwxr-xr-x - du supergroup 0 2014-12-11 22:48 /tmp 但在本地的datanode中就什么也看不见呢?namenode中也没见元数据啊?怎么回事?

hadoop集群间数据迁移

bin/hadoop distcp hftp://master:50070/user/wp hdfs://ns1/user/ hadoop集群间数据迁移org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException: java.net.SocketTimeoutException: connect timed out

数据仓库基础数据量大,ETL处理速度慢,查询慢,hadoop能否解决问题?如何迁移到hadoop?

1.基础数据主表2亿以上数据 2.基础层到中间层的汇总处理(每天处理),ETL处理比较花时间 某些任务一个小时左右才能处理完 3.SQL已经无法再优化 4.这种情况想到hadoop,不知hadoop是否能解决,如何解决? 5.我以下思路是否可行: 基础数据导入hadoop, ETL处理过程由hadoop处理,处理结果再导回数据库 6.问题hadoop中如何进行多表关联查询或者类似存储过程那样的处理? hadoop我没接触过,请专家帮忙详细解答一下,谢谢!

hadoop里面gz大文件切割为小文件?

hadoop里面,有什么好的方法,将一个大的gz文件,解压、分割然后压缩为将近128M的压缩gz文件?

关于Hadoop WebHDFS 下载文件速度慢的问题

目前正在windows+.net下开发一个Hadoop HDFS读写文件的小测试程序。用的WebHDFS http接口。上传文件速度比较快,但是下载非常慢。跟踪代码发现主要是在读取网络流时太慢: Stream respStream = wrp.GetResponseStream(); Stream fileStream = File.Create(localFile); int bufferSize = 1024 * 1024; int byteNum; byte[] downloadByte = new byte[bufferSize]; while (true) { byteNum = repStream.Read(downloadByte, 0, bufferSize); if (byteNum == 0) { break; } fileStream.Write(downloadByte, 0, byteNum); } 我虽然设置了bufferSize但是每次读取时最多不超过8192字节。我想请问一下怎样才能提高读取的字节数?

用shell脚本读取Hadoop集群上的文件

我想用grep -Ff 命令提取hadoop上两个文件中相同的内容, 例如hadoop上的文件位置为/hadoop/file1和/hadoop/file2, 我想在本地用shell脚本编写比较hadoop上这两个文件内容的代码,求指点

Hadoop存储分析Json数据

Json数据存储到Hadoop后进行分析这个过程需要哪些技术和大致步骤,谢谢各位

hadoop是如何快速定位文件位置的?

我了解的文件系统,对于给定的路径,假如是/usr/abc/def/gh.doc 都是线性解析路径分量,即先找到usr的目录,再找到abc的,一层层下去最后找到gh.doc的 但是老师和我说hadoop有一套自己的快速定位文件的算法,找了很久我也没找到这方面的资料。哪位知道的大神帮忙解答一下?

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计 关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计 目前mysql按地区,商业区区分,假设读取mysql数据库的地区,根据地区划分 我昨天和领导沟通了,领导说点击率不是必要条件,地区划分才是重点,后面就是各方面劝导,只好以地区区分,关键是这个镇区区分数据和产品的话,全国有6k多个地区, 这样的hdfs文件夹数量,岂不是很崩溃, 后面感觉还有很多纬度和条件查询啥的,上头又喊了一句不一定要用hadoop,发挥hadoop啥啥优势,mysql多条件查询方便,好好做这个方案,然后我就一头雾水了,心里比较纠结和郁闷。最近搞mahout出了点成绩,发现单机版也挺好使(数据量少的前提下),搜了搜房子,北京也就519,059这么多套房子在待售,没啥必要用hadoop,自我感觉,如果只是单独分析这些条数据519,059条,感觉不大, 如果你有好的博客和资源提供,麻烦提供url连接,谢谢

Hadoop的数据量与多个传统关系型数据库的数据量

Hadoop可以处理海量数据,如果使用多个传统关系型数据库也可以完成海量数据的处理, 那么,Hadoop与多个传统关系型数据库的区别在哪里??使用Hadoop的目的是什么??

hadoop怎么查看小文件?

怎么确定小文件合并成功了?有没有命令呢,可不可以有一些操作步骤?度娘查不到

hadoop多文件输入多文件输出

使用MultipleOutputs时,如果有n个输入,自动对应会有n个输出,现在要将这n个文件合并为一个文件,要如何设置?

hadoop HA高可用集群put文件的问题

HA集群上传文件时报错: ![图片说明](https://img-ask.csdn.net/upload/201608/29/1472439755_984382.png) could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation. namespaceID主从节点一致,并且之前没有格式化过····做的有可能导致这个问题的操作仅仅是修改了spark的配置文件(把hadoop的两个配置文件移到了spark下,并且修改了spark配置文件) http://my.oschina.net/cjun/blog/668990?p=1 之后向hadoop集群上传文件,就出现了这个错误。搜索枯肠试了很多种方法,无奈之下格式化了hadoop集群。还是这个问题·····又试图调低了系统安全···还是不行·············· 现在put空文件可以上去,有内容的就会报错········· 求各位大神指点!! jps指令运行效果,hadoop版本2.5.2,数据已经全部删除,本地路径下的也都删除了 ![图片说明](https://img-ask.csdn.net/upload/201608/30/1472518284_47051.png)

hadoop磁盘负载不均问题

大家好,我想请教一个问题 hadoop的磁盘负载是按照机器来做的么 例如我有三台datanode磁盘配置如下(第一个数字是磁盘个数,第二个是磁盘大小),第1台:10 * 100G,第2台:10 * 100G,第3台:4 * 100G 不考虑备份和其他影响的情况下存入1200G数据,那么第三台机器是不是就满了呢

本地文件上传到hadoop文件夹时出错。各路求助大神。

把本地文件上传到hadoop的文件下,本地上传文件后面出现 _COPYING_ on client 127.0.0.1.然后在hadoop文件夹下面没有文件。大神求助啊。。 $ bin/hdfs dfs -put etc/hadoop input2 15/08/25 10:14:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable put: file /user/xw/input2/capacity-scheduler.xml._COPYING_ on client 127.0.0.1. 然后我去input2文件夹下面查看,什么都没有!

hadoop数据导入的问题

sqoop工具能从传统数据库与hadroop,hdfs,hive,hbase进行互相导入导出,那么sqoop能不能把hdfs文件导入到hbase里面

jquery文件下载插件以及hadoop文件上传的小问题

求一个文件下载插件介绍,和上传插件类似,可以显示进度,暂停等,求大神,求告知!万分感谢; 附:学校实训项目做了一个云存储相关的,文件利用上传插件上传到tomcat项目目录里,再上传到hadoop hdfs,然后删除,中间转了一道,求好的解决办法。

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

外包程序员的幸福生活

今天给你们讲述一个外包程序员的幸福生活。男主是Z哥,不是在外包公司上班的那种,是一名自由职业者,接外包项目自己干。接下来讲的都是真人真事。 先给大家介绍一下男主,Z哥,老程序员,是我十多年前的老同事,技术大牛,当过CTO,也创过业。因为我俩都爱好喝酒、踢球,再加上住的距离不算远,所以一直也断断续续的联系着,我对Z哥的状况也有大概了解。 Z哥几年前创业失败,后来他开始干起了外包,利用自己的技术能...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

深入剖析Springboot启动原理的底层源码,再也不怕面试官问了!

大家现在应该都对Springboot很熟悉,但是你对他的启动原理了解吗?

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

你期望月薪4万,出门右拐,不送,这几个点,你也就是个初级的水平

先来看几个问题通过注解的方式注入依赖对象,介绍一下你知道的几种方式@Autowired和@Resource有何区别说一下@Autowired查找候选者的...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《Oracle Java SE编程自学与面试指南》最佳学习路线图2020年最新版(进大厂必备)

正确选择比瞎努力更重要!

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

正确选择比瞎努力更重要!

字节跳动面试官竟然问了我JDBC?

轻松等回家通知

面试官:你连SSO都不懂,就别来面试了

大厂竟然要考我SSO,卧槽。

终于,月薪过5万了!

来看几个问题想不想月薪超过5万?想不想进入公司架构组?想不想成为项目组的负责人?想不想成为spring的高手,超越99%的对手?那么本文内容是你必须要掌握的。本文主要详解bean的生命...

自从喜欢上了B站这12个UP主,我越来越觉得自己是个废柴了!

不怕告诉你,我自从喜欢上了这12个UP主,哔哩哔哩成为了我手机上最耗电的软件,几乎每天都会看,可是吧,看的越多,我就越觉得自己是个废柴,唉,老天不公啊,不信你看看…… 间接性踌躇满志,持续性混吃等死,都是因为你们……但是,自己的学习力在慢慢变强,这是不容忽视的,推荐给你们! 都说B站是个宝,可是有人不会挖啊,没事,今天咱挖好的送你一箩筐,首先啊,我在B站上最喜欢看这个家伙的视频了,为啥 ,咱撇...

立即提问
相关内容推荐