hdfs文件流封装为压缩流一次读写128K

大家好，我又来了，具体问题：获取hadoop上的一个文件，由于需求，需要封装为zip流返回，但read时，虽然声明的数组是50M，但每次还是只读了131072字节(128K)；由于不耽误业务的使用，所以放在那没优化，但最近业务出问题了，在排查；所以想把这里优化下，具体代码如下：

val aa:String = "hdfs://127.0.0.1:9000/test/my_test.jar"
//调用封好的工具类，返回FSDataInputStream文件流
val inputStream:FSDataInputStream= HdfsUtil.getFSDataInputStream(aa)
val byteArrayOutputStream = new ByteArrayOutputStream()
//创建压缩流
val zos = new ZipOutputStream(byteArrayOutputStream)
val jarName = jarPath.substring(jarPath.lastIndexOf("/")+1)
val zipEntry:ZipEntry = new ZipEntry(jarName)
zos.putNextEntry(zipEntry)
var flag = true
var index = 0;
var i:Int = 0;
while(flag){
    //循环read Hdfs的文件流
    val byte:Array[Byte] =new Array[Byte](1024*1024);
    index = inputStream.read(byte,0,byte.length)
    //打印一下每次读取的字节数
    println("----------------------index------------------:"+index)
    if (index>0){
      i=i+1;
      //这个文件读取了多少次
      println("--------------i---------------:"+i)
      zos.write(byte,0,index)
    }else{
      flag = false
    }
}
zos.closeEntry()
zos.close()

//接下来都是无用代码，省略

读取过程如下：

按说260M的文件，一次读取50M，读取六次就够了；但现在结果是每次只read了128K，声明的byte数组长度没用；也追了追源码，确实找到了131072的由来；但本人才疏学浅，实在不知道调整哪里，望大家不吝赐教，多谢

追的源码在网站找了个博主的记录，我这里也就直接借用一下，curDataSlice的值就是131072，也尝试修改了hadoop配置文件中的和文件大小相关耳朵配置，但最终也没解决，

想要达到的效果：read时能按照我声明的byte数组大小读取字节（至少不能是现在每次读取128K）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
我不想名字重复 2022-09-26 15:27
关注
顶一下，不要沉了啊！！！！

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hdfs为什么不适合存储小文件 hdfs 有问必答
2021-12-15 20:24

回答 1 已采纳为啥集群小文件治理那么重要，你真的懂吗？_涤生手记大数据-CSDN博客小文件是 Hadoop 的常见挑战，如果不小心处理，它们可能会导致
怎么在hdfs上下载文件传给前端 hdfs java spring
2023-01-05 14:13

回答 9 已采纳 String fileName = "xxx"; response.reset(); response.setContentType("application/x-msdownload
spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 17:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
hdfs文件流，封装为输出流返回遇到的问题记录
2022-09-30 16:39

我不想名字重复的博客 hdfs的文件(夹) 封装为输出流返回遇到的问题
使用hdfs上传文件报错org.apache.hadoop.hdfs.CannotObtainBlockLengthExceptio hadoop hdfs java
2022-08-15 11:47

回答 6 已采纳信息不足不是很好判断，找了下源码，报错的方法如下： /** Read the block length from one of the datanodes. */ private long rea
hdfs在idea上传文件运行错误 hadoop hdfs intellij-idea
2023-03-25 03:16

回答 8 已采纳 hdfs没有 /data目录
3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等）-java
2023-04-23 17:32

一瓢一瓢的饮 alanchanchn的博客本示例介绍java通过api操作hdfs。主要包含HDFS的读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等。本文分为2个部分，即环境准备和示例。
HDFS查看文件命令 `hadoop fs -ls .` 的理解 hadoop hdfs
2021-11-15 16:27

回答 1 已采纳默认为用户的home目录 home目录的默认路径为 /user，根据配置项（dfs.user.home.dir.prefix）决定而用户（非kerberos的情况下），则是根据环境变量HADOO
hadoop读取hdfs文件：No such file or directory: `hdfs://localhost:9000/user/hadoop' hadoop hdfs spark
2022-10-09 17:22

回答 1 已采纳可以考虑换个目录试一下比如：hdfs dfs -put /usr/local/spark/README.MD /
hadoop格式化hdfs提示文件不存在怎么办 hadoop
2021-11-16 21:09

回答 1 已采纳你的core-site.xml 配置文件错了你没有生成log和hadooptmp，删了重配我前几天写了一个脚本，你可以借鉴一下
大数据思维 Hadoop HDFS基本概念【万字详细版】
2024-06-03 19:59

阿修11的博客（例:一家公司，老板接到一个项目，项目在丢给项目经理，项目经理在丢给我们这群苦逼码农，一层一层分解）在大数据中是以海量数据作为切入点进项讲解。所谓的海量数据处理，何为海量，就是数据量太大，跟海一样大，...
HDFS文件上传1111111111111111111111 linux
2022-09-18 10:38

回答 1 已采纳这篇文章：HDFS文件夹上传和下载等命令也许能够解决你的问题，你可以看下
hdfs orc格式_大数据：Hive - ORC 文件存储格式
2020-12-20 23:33

weixin_39854369的博客一、ORC File文件结构ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。...
21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件
2023-05-01 14:54

一瓢一瓢的饮 alanchanchn的博客本文介绍使用MapReduce读写文件，包括：读写SequenceFile、MapFile、ORCFile和ParquetFile文件。本文前提：hadoop环境可正常使用。pom.xml文件内容参考本专栏中的其他文章内容。本文分为四部分，即MapReduce读写...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月26日

悬赏问题

¥15 Apache显示系统错误3该如何解决？
¥30 uniapp小程序苹果手机加载gif图片不显示动效？
¥20 js怎么实现跨域问题
¥15 C++dll二次开发，C#调用
¥15 请教，如何使用C#加载本地摄像头进行逐帧推流
¥15 Python easyocr无法顺利执行，如何解决？
¥15 为什么会突然npm err！啊
¥15 java服务连接es读取列表数据，服务连接本地es获取数据时的速度很快，但是换成远端的es就会非常慢，这是为什么呢
¥15 vxworks交叉编译gcc报错error: missing binary operator before token "("
¥15 JSzip压缩文件时如何设置解压缩密码

hdfs文件流封装为压缩流一次读写128K

读取过程如下：

按说260M的文件，一次读取50M，读取六次就够了；但现在结果是每次只read了128K，声明的byte数组长度没用；也追了追源码，确实找到了131072的由来；但本人才疏学浅，实在不知道调整哪里，望大家不吝赐教，多谢

想要达到的效果：read时能按照我声明的byte数组大小读取字节（至少不能是现在每次读取128K）

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新