hive表合并文件与预期不一致？没有分割为128M的文件

外建表 test7 数据放在  /nginx/log4 
 ~# hadoop fs -du -s -h /nginx/log4/*
58.5 M  175.4 M  /nginx/log4/000000_0.gz
58.5 M  175.4 M  /nginx/log4/000000_1.gz
58.5 M  175.4 M  /nginx/log4/000000_2.gz
58.5 M  175.4 M  /nginx/log4/000000_3.gz

想法是,把这些文件合并压缩为128M大小的文件，减少文件数量，
运算后，应该生成两个文件 128M + 106M

# hive 表执行
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
set hive.merge.size.per.task=134217728;
set mapred.max.split.size=134217728;

create table test8 as select * from test7;

生成的test8 的数据目录在 /hive/test8

 ~#  hadoop fs -du -s -h /hive/test8/*
116.2 M  348.5 M  /hive/test8/000000_0.gz
58.1 M  174.2 M  /hive/test8/000001_0.gz
58.1 M  174.2 M  /hive/test8/000002_0.gz

问题来了，为什么没有按照预想的那样，合并成128M 的gz文件和 100多M的gz文件？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-21 01:56
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章讲的很详细，请看：Hive 文件压缩格式对比

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hdfs小文件合并
2022-10-13 17:54

孩子加油孩子的博客 hdfs小文件合并
数据库领域Hive的表结构设计最佳实践
2025-05-18 16:58

数据架构师的AI之路的博客 Hive作为Hadoop生态系统中的重要数据仓库工具，其表结构设计直接影响查询性能、存储效率和数据处理能力。本文旨在提供一套完整的Hive表结构设计方法论，帮助数据工程师和架构师构建高性能、易维护的数据仓库。介绍...
大数据领域 Hive 数据压缩与存储优化
2025-08-05 14:59

AI大数据智能洞察的博客本文将深入探讨Hive数据压缩与存储优化的核心技术，从基础原理到高级实践，为您揭示如何在不牺牲查询性能的前提下，显著降低存储成本并提升处理效率。我们将系统比较各类压缩算法的优劣，详解ORC与Parquet等列式存储...
Presto与Hive的优缺点比较
2024-06-15 01:51

程序员光剑的博客 Hadoop作为大数据领域的重要...Hadoop生态圈包含了一系列开源工具和框架,如HDFS分布式文件系统、MapReduce分布式计算框架、Hive数据仓库工具、HBase列式数据库等。这些工具相互配合,构建了一个完整的大数据处理平台。
大数据领域Hive的错误处理与故障排查技巧
2025-04-11 10:28

AI大数据智能洞察的博客本文旨在为数据工程师和分析师提供一套系统化的Hive错误处理与故障排查方法论，涵盖从基础语法检查到高级性能调优的全方位技巧。本文首先介绍Hive的核心架构和常见错误类型，然后深入探讨各类错误的排查方法，接着...
用mapreduce计算框架实现了4个小demo wordcount、基于物品的推荐算法和基于用户的推荐算法
2024-03-13 17:24

这个框架在人工智能（AI）领域有着广泛的应用，特别是在大数据分析中。Hadoop是实现MapReduce的核心库，同时也是一种分布式文件系统，它能够高效地存储和处理海量数据。 1. **MapReduce工作原理** MapReduce的工作...
hive文件格式
2017-10-25 20:38

明仔很忙的博客 RCFile和ORCFile 标签： HiveRCFileORCFile 2016-09-04 20:54 2853人阅读评论(0) 收藏举报 ...Hive（13） ...版权声明：本文为博主原创文章，转载请注明出处。目录(?)[+] RCFileORCFile
Hive SQL优化技巧与原理解析
2023-10-05 01:10

程序员光剑的博客 Apache Hive是基于Hadoop生态系统的分布式数据仓库框架。HiveQL语言是Hive中使用的SQL查询...因此，为了提高Hive的查询性能，本文从查询优化、执行计划生成、查询执行等多个方面对Hive SQL性能进行了全面的分析与总结。
大数据领域Hive的存储格式选择与性能对比
2025-09-27 18:46

AI量化价值投资入门到精通的博客问题类型具体描述存储效率如何用最小的存储空间存储大规模数据？（压缩率）查询性能如何减少查询时的IO量与数据...本文从原理架构实践三个维度，全面解析了Hive常用存储格式的特性与选择策略，并展望了未来的演化方向。
Hive与Hudi集成：构建实时数据湖的最佳实践与踩坑记录
2025-09-05 23:28

AI算力网络与通信的博客将Hive与Hudi集成，能够结合两者优势：利用Hudi的实时数据处理能力增强Hive的数据湖功能，同时借助Hive的SQL查询能力和元数据管理简化Hudi的使用复杂度。Apache Hive是建立在Hadoop之上的数据仓库工具，它提供了类似...
没有解决我的问题, 去提问

hive表合并文件与预期不一致？没有分割为128M的文件

1条回答 默认 最新

1条回答默认最新