hadoop怎么查看小文件?

怎么确定小文件合并成功了?有没有命令呢,可不可以有一些操作步骤?度娘查不到

1个回答

weixin_43113933
weixin_43113933 感谢回答,我想知道怎么查看小文件的数量呢?如果小文件很多我怎么确定合并小文件后数量也少了
7 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python+OpenCV计算机视觉

Python+OpenCV计算机视觉

hadoop里面gz大文件切割为小文件?

hadoop里面,有什么好的方法,将一个大的gz文件,解压、分割然后压缩为将近128M的压缩gz文件?

hadoop 丢失数据文件问题

问题现象: 执行mapreduce程序(根据增量文件对全量文件实行更新操作)时,设置参数mapreduce.job.reduces=200,程序执行成功后,结果目录下面除了_SUCCESS文件外,总共只有198个文件(每个文件300多M),缺少文件part-r-00119及part-r-00125. 重新执行程序后,正确生成200个结果文件。 问题分析过程: 1. 查看8088界面,发现作业运行成功,200 个reduce task 均已成功执行,其中reduce_119及reduce_125 任务均为一次执行成功,没有出现failed及killed; 2. 查看yarn日志,根据File System Counters中记录信息,Reduce output records=212759958大于实际结果文件中的记录条数; 3. 查看reduce 119 task的日志信息,发现以下信息 2017-03-10 08:23:15,560 INFO [main] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter: Saved output of task 'attempt_1478381467748_149540_r_000119_0' to hdfs://mycluster/XXX/XXX/XXX/20170227/_temporary/1/task_1478381467748_149540_r_000119 2017-03-10 08:23:15,620 INFO [main] org.apache.hadoop.mapred.Task: Task 'attempt_1478381467748_149540_r_000119_0' done. 上述信息表明reduce_119 task已经成功生成结果临时文件并将成功执行的状态返回给了APPMASTER; 4. 继续分析reduce_119 task的结果临时文件在之后为何会丢失。 到该task所运行的datanode节点找到该临时文件的某一BOLOCK NAME,并到namenode节点查看该块的所有操作信息, 发现2017-03-10 08:26时该块信息被删除(该task运行成功时间为2017-03-10 08:23,整个JOB运行成功时间为2017-03-10 09:30左右) PS:文件进行MV操作时,BOLOCK NAME不会发生变化; 5. 查看源码发现,task生成的结果临时文件被移动至目标结果目录采用的是rename操作; 6. 做了以下测试分析: 执行相同程序,在reduce_121 task执行成功后(整个job并未执行完成), 手动将该task生成的结果临时文件hdfs://mycluster/XXX/XXX/XXX/20170227/_temporary/1/task_1478381467748_149540_r_000121进行删除;神奇的事情发生了,整个job作业运行成功了,但是结果目录缺少了part-r-00121这个文件,且File System Counters中记录的输出结果信息是包含part-r-00121这个文件记录条数的 分析到了这里实在是不知道为啥结果临时文件的block信息被删除了, 跪求大神帮忙分析分析问题原因,为啥mapreduce执行过程中会丢失结果文件; PS: 1. hadoop 版本:hadoop 2.2.0 2. 操作系统 red hat 3. 程序执行过程中,不存在人为删除reduce_119 和 reduce_125 task 临时结果文件的情况

hadoop 本地文件不能显示

我将文件上传到hdfs中了,但为什么在本地的datan ode中什么也看不见呢?求解 <property> <name>dfs.namenode.dir</name> <value>/home/du/name</value> </property> <property> <name>dfs.datanode.dir</name> <value>/home/du/data</value> </property><span></span> 在/tmp中有2个.txt文件 du@du-Vostro-1088:~/hadoop-1.2.1$ bin/hadoop fs -ls / Found 3 items drwxr-xr-x - du supergroup 0 2014-12-11 22:52 /du drwxr-xr-x - du supergroup 0 2014-12-11 22:52 /hello drwxr-xr-x - du supergroup 0 2014-12-11 22:48 /tmp 但在本地的datanode中就什么也看不见呢?namenode中也没见元数据啊?怎么回事?

hadoop HA高可用集群put文件的问题

HA集群上传文件时报错: ![图片说明](https://img-ask.csdn.net/upload/201608/29/1472439755_984382.png) could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation. namespaceID主从节点一致,并且之前没有格式化过····做的有可能导致这个问题的操作仅仅是修改了spark的配置文件(把hadoop的两个配置文件移到了spark下,并且修改了spark配置文件) http://my.oschina.net/cjun/blog/668990?p=1 之后向hadoop集群上传文件,就出现了这个错误。搜索枯肠试了很多种方法,无奈之下格式化了hadoop集群。还是这个问题·····又试图调低了系统安全···还是不行·············· 现在put空文件可以上去,有内容的就会报错········· 求各位大神指点!! jps指令运行效果,hadoop版本2.5.2,数据已经全部删除,本地路径下的也都删除了 ![图片说明](https://img-ask.csdn.net/upload/201608/30/1472518284_47051.png)

关于Hadoop WebHDFS 下载文件速度慢的问题

目前正在windows+.net下开发一个Hadoop HDFS读写文件的小测试程序。用的WebHDFS http接口。上传文件速度比较快,但是下载非常慢。跟踪代码发现主要是在读取网络流时太慢: Stream respStream = wrp.GetResponseStream(); Stream fileStream = File.Create(localFile); int bufferSize = 1024 * 1024; int byteNum; byte[] downloadByte = new byte[bufferSize]; while (true) { byteNum = repStream.Read(downloadByte, 0, bufferSize); if (byteNum == 0) { break; } fileStream.Write(downloadByte, 0, byteNum); } 我虽然设置了bufferSize但是每次读取时最多不超过8192字节。我想请问一下怎样才能提高读取的字节数?

用shell脚本读取Hadoop集群上的文件

我想用grep -Ff 命令提取hadoop上两个文件中相同的内容, 例如hadoop上的文件位置为/hadoop/file1和/hadoop/file2, 我想在本地用shell脚本编写比较hadoop上这两个文件内容的代码,求指点

本地文件上传到hadoop文件夹时出错。各路求助大神。

把本地文件上传到hadoop的文件下,本地上传文件后面出现 _COPYING_ on client 127.0.0.1.然后在hadoop文件夹下面没有文件。大神求助啊。。 $ bin/hdfs dfs -put etc/hadoop input2 15/08/25 10:14:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable put: file /user/xw/input2/capacity-scheduler.xml._COPYING_ on client 127.0.0.1. 然后我去input2文件夹下面查看,什么都没有!

hadoop多文件输入多文件输出

使用MultipleOutputs时,如果有n个输入,自动对应会有n个输出,现在要将这n个文件合并为一个文件,要如何设置?

jquery文件下载插件以及hadoop文件上传的小问题

求一个文件下载插件介绍,和上传插件类似,可以显示进度,暂停等,求大神,求告知!万分感谢; 附:学校实训项目做了一个云存储相关的,文件利用上传插件上传到tomcat项目目录里,再上传到hadoop hdfs,然后删除,中间转了一道,求好的解决办法。

Hadoop2.6.0集群用hadoop df -mkdir -p创建文件

我用hadoop2.6.0创建了一个master和4个worker的集群,启动hdfs后,用hadoop fs -mkdir -p /data/wordcount文件夹后,在worker:50075上看不到我新建的这个文件, 请问下各位是为什么

Hadoop 写数据或上传文件问题

Hadoop写数据的过程中 怎么得到所申请的blockid,求大神们帮助啊。。。。。

flume上传文件到hadoop,没有文件时正常,有文件时抛出DistributeFileSystem not found?

flume配置好了,分布式。没有文件的时候运行正常,往它查询的目录上传一个文件就报错 Unable to deliver event. Exception follows. org.apache.flume.EventDeliveryException: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.hdfs.DistributeFileSystem not found 。但是hadoop-hdfs-2.7.3.jar我已经导入了。为啥会找不到,请指教。

hadoop是如何快速定位文件位置的?

我了解的文件系统,对于给定的路径,假如是/usr/abc/def/gh.doc 都是线性解析路径分量,即先找到usr的目录,再找到abc的,一层层下去最后找到gh.doc的 但是老师和我说hadoop有一套自己的快速定位文件的算法,找了很久我也没找到这方面的资料。哪位知道的大神帮忙解答一下?

网络节点向hadoop集群上传文件时,内网与外网IP出错

公司需要搭建hadoop环境收集网络上服务器节点的日志。但是hadoop搭建在微软云上,微软云的节点(namenode和datanode)之间用内网IP通信,但是网络商服务器节点上传需要用到外网IP。我本来想把hadoop的Java源码根据需求修改后,重新编译得到新包,再到微软云的虚拟机去配置。但是没法得到NAT的映射表,也就是内网IP没法在代码里映射为外网IP。有什么其他的解决方法吗?

solrcloud与Hadoop整合达到对文件内容的全文检索

我想做的是solrcloud在Hadoop中使用,但是我不知道怎么使用solr对文件进行全文检索,也就是对文件的内容进行全文检索,请大神指教

Hadoop环境搭建,报错没有那个文件或目录?

在执行./hadoop namenode -format,初始化的时候一直报错,文件是能找到的,但是一直报错说找不到,确定用的都是64位的,求问大神怎么解决 ![图片说明](https://img-ask.csdn.net/upload/201811/26/1543230388_813472.png

hadoop 运行本地jar包无法读取文件。

在本地运行时可以读取workspace中的txt文件,将java文件和txt一起打包之后上传至Hadoop运行,jar包中的txt文件没有被读取也没有报错。

hadoop下的存储在hdfs中的视频文件怎么播放?

hadoop下的存储在hdfs中的视频文件怎么播放?可以直接拿到视频文件的http路径吗,我现在想实现的是像百度云这样的可以在线播放,但是不知道怎么得到文件的路径,而hdfs提供的API只有上传下载文件这些,对于这样的问题要怎么解决呢??

java连接hadoop hdfs文件系统报错

报错信息: java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "localhost.localdomain/127.0.0.1"; destination host is: "172.16.6.57":9000; at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:763) at org.apache.hadoop.ipc.Client.call(Client.java:1229) at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:202) at $Proxy9.create(Unknown Source) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:164) at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:83) at $Proxy9.create(Unknown Source) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.create(ClientNamenodeProtocolTranslatorPB.java:193) at org.apache.hadoop.hdfs.DFSOutputStream.<init>(DFSOutputStream.java:1324) at org.apache.hadoop.hdfs.DFSOutputStream.newStreamForCreate(DFSOutputStream.java:1343) at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1255) at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1212) at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:276) at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:265) at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:82) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:886) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:781) at com.zk.hdfs.FileCopyToHdfs.uploadToHdfs(FileCopyToHdfs.java:44) at com.zk.hdfs.FileCopyToHdfs.main(FileCopyToHdfs.java:21) Caused by: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag. at com.google.protobuf.InvalidProtocolBufferException.invalidEndTag(InvalidProtocolBufferException.java:73) at com.google.protobuf.CodedInputStream.checkLastTagWas(CodedInputStream.java:124) at com.google.protobuf.AbstractMessageLite$Builder.mergeFrom(AbstractMessageLite.java:213) at com.google.protobuf.AbstractMessage$Builder.mergeFrom(AbstractMessage.java:746) at com.google.protobuf.AbstractMessage$Builder.mergeFrom(AbstractMessage.java:238) at com.google.protobuf.AbstractMessageLite$Builder.mergeDelimitedFrom(AbstractMessageLite.java:282) at com.google.protobuf.AbstractMessage$Builder.mergeDelimitedFrom(AbstractMessage.java:760) at com.google.protobuf.AbstractMessageLite$Builder.mergeDelimitedFrom(AbstractMessageLite.java:288) at com.google.protobuf.AbstractMessage$Builder.mergeDelimitedFrom(AbstractMessage.java:752) at org.apache.hadoop.ipc.protobuf.RpcPayloadHeaderProtos$RpcResponseHeaderProto.parseDelimitedFrom(RpcPayloadHeaderProtos.java:985) at org.apache.hadoop.ipc.Client$Connection.receiveResponse(Client.java:938) at org.apache.hadoop.ipc.Client$Connection.run(Client.java:836) 代码是在网上找的: package com.zk.hdfs; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.util.Progressable; public class FileCopyToHdfs { public static void main(String[] args) throws Exception { try { uploadToHdfs(); //deleteFromHdfs(); //getDirectoryFromHdfs(); // appendToHdfs(); // readFromHdfs(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } finally { System.out.println("SUCCESS"); } } /**上传文件到HDFS上去*/ public static void uploadToHdfs() throws FileNotFoundException,IOException { String localSrc = "e:/test.txt"; String dst = "hdfs://172.16.6.57:9000/user/abc/zk/test1.txt"; InputStream in = new BufferedInputStream(new FileInputStream(localSrc)); Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(dst), conf); OutputStream out = fs.create(new Path(dst), new Progressable() { public void progress() { System.out.print("."); } }); IOUtils.copyBytes(in, out, 4096, true); } } 总是报连接问题,网上搜不到资料,大牛帮下忙啊

2019 Python开发者日-培训

2019 Python开发者日-培训

150讲轻松搞定Python网络爬虫

150讲轻松搞定Python网络爬虫

设计模式(JAVA语言实现)--20种设计模式附带源码

设计模式(JAVA语言实现)--20种设计模式附带源码

YOLOv3目标检测实战:训练自己的数据集

YOLOv3目标检测实战:训练自己的数据集

java后台+微信小程序 实现完整的点餐系统

java后台+微信小程序 实现完整的点餐系统

三个项目玩转深度学习(附1G源码)

三个项目玩转深度学习(附1G源码)

初级玩转Linux+Ubuntu(嵌入式开发基础课程)

初级玩转Linux+Ubuntu(嵌入式开发基础课程)

2019 AI开发者大会

2019 AI开发者大会

玩转Linux:常用命令实例指南

玩转Linux:常用命令实例指南

一学即懂的计算机视觉(第一季)

一学即懂的计算机视觉(第一季)

4小时玩转微信小程序——基础入门与微信支付实战

4小时玩转微信小程序——基础入门与微信支付实战

Git 实用技巧

Git 实用技巧

Python数据清洗实战入门

Python数据清洗实战入门

使用TensorFlow+keras快速构建图像分类模型

使用TensorFlow+keras快速构建图像分类模型

实用主义学Python(小白也容易上手的Python实用案例)

实用主义学Python(小白也容易上手的Python实用案例)

程序员的算法通关课:知己知彼(第一季)

程序员的算法通关课:知己知彼(第一季)

MySQL数据库从入门到实战应用

MySQL数据库从入门到实战应用

机器学习初学者必会的案例精讲

机器学习初学者必会的案例精讲

手把手实现Java图书管理系统(附源码)

手把手实现Java图书管理系统(附源码)

极简JAVA学习营第四期(报名以后加助教微信:eduxy-1)

极简JAVA学习营第四期(报名以后加助教微信:eduxy-1)

.net core快速开发框架

.net core快速开发框架

玩转Python-Python3基础入门

玩转Python-Python3基础入门

Python数据挖掘简易入门

Python数据挖掘简易入门

微信公众平台开发入门

微信公众平台开发入门

程序员的兼职技能课

程序员的兼职技能课

Windows版YOLOv4目标检测实战:训练自己的数据集

Windows版YOLOv4目标检测实战:训练自己的数据集

HoloLens2开发入门教程

HoloLens2开发入门教程

微信小程序开发实战

微信小程序开发实战

Java8零基础入门视频教程

Java8零基础入门视频教程

相关热词 c#跨线程停止timer c#批量写入sql数据库 c# 自动安装浏览器 c#语言基础考试题 c# 偏移量打印是什么 c# 绘制曲线图 c#框体中的退出函数 c# 按钮透明背景 c# idl 混编出错 c#在位置0处没有任何行
立即提问