hive默认的分割大小究竟是多少？128M 还是256M ？

一个280M 的txt文本文件，hive 进入shell 以后，select count(*) from test;
查看运行日志，有两个map，一个map256M ，另外一个24M；可以看到默认的设置

    mapreduce.input.fileinputformat.split.maxsize   256000000   
    mapreduce.input.fileinputformat.split.minsize   1

blocksize 为128M

看到一篇文章，说的splitsize由什么参数决定的

  参考地址：https://www.cnblogs.com/codeOfLife/p/5676754.html
  当mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize > dfs.blockSize的情况下，此时的splitSize 将由mapreduce.input.fileinputformat.split.minsize参数决定

  当mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize的情况下，此时的splitSize 将由dfs.blockSize配置决定

  当dfs.blockSize > mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize的情况下，此时的splitSize将由mapreduce.input.fileinputformat.split.maxsize参数决定。

按照上面的说法，在默认的情况下

    mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize

    256000000 > 128M > 1

那么280M的文本文件应该是以128M来切割的，应该有3个map，但是为什么是按照256M切割的了？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zdkdchao 2021-12-12 22:41
关注
找到原因了吗，正常应该是按128切片的

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java hive默认分隔符,Hive 中使用多字符字符串作为字段分隔符
2021-04-22 02:33

Spring太难的博客 Hive建表语句中得FIELDS TERMINATED BY 只能是单字符，遇到多字符作为分隔符的就尴尬了。目前我们的字段分隔符是’@#@’ 。遇到这个问题除了变更分隔符外，hive也可以使用serde的方式来支持多字符作为分隔符。例如一...
hive-java中操作hive的默认分割符\001
2020-07-16 16:34

zdkdchao的博客使用hive创建一个默认分割符的表，然后打开其hdfs上的数据文件。\001用键盘是无法打出来的，在notepad中显示为SOF。把这个SOF复制到idea中，发现是\u0001。 import org.junit.jupiter.api.Test; import java.io.*; ...
Hive的安装和使用以及Java操作hive
2021-12-20 17:47

CSDN专家-微编程的博客 Hive 引言简介 hive是facebook开源，并捐献给了apache组织，作为apache组织的顶级项目(hive.apache.org)。 hive是一个基于大数据技术的数据仓库(DataWareHouse)技术，主要是通过将用户书写的SQL语句翻译成...
快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？
2022-05-24 16:21

微观技术的博客如何做好数据分析，计算，提取有价值信息，大数据技术一直是一个热门赛道今天我们就对 Hadoop、Hive、Spark 做下分析对比HadoopHadoop 称为大数据技术的基石。由两部分组成，分布式存储（HDFS）和分布式计算...
Hive必须了解的技能有哪些？万字博客带你掌握Hive
2021-08-31 16:38

报告，今天也有好好学习的博客目录推荐收藏的Hive语言大全必须要看的前言一、入门需知1 创建数据库1.1 创建数据库1.2 查看数据库1.3 删除数据库1.4 进入数据库2 Hive数据类型2.1 数字类2.2 日期时间类2.3 字符串类2.4 Misc类2.5 复合类3 Hive建表...
hive的java api_Hive-1.2.0学习笔记（三）Hive用户接口
2021-03-19 08:36

出圈唇享的博客 Hive对外提供了三种服务模式，即CLI(command line interface)、Hive Web和Hive Client(如JavaApi方式)。1、Hive命令行模式(CLI)启动Hive命令行模式有两种方式bin/hive或bin/hive--serviceclihive命令选项[hadoop@...
源码分析：Hive on Spark时，读取Hive表后会有多少个Task？
2020-09-24 13:49

后来X大数据的博客虽然一条Hive SQL会转换成Spark的几个job，以及会生成多少Stage，我们还不好判断，但是Spark如何读取Hive表后会有多少个Task呢？我们知道Spark的Task数由partitions决定，那么又如何决定呢？ Hive在读取不可切片...
[Hive]一篇带你读懂Hive是什么
2022-05-18 15:12

Philosophy7的博客文章目录一、Hive介绍Hive的优缺点Hive架构Hive用户接口Hive元数据的三种存储模式Hive数据存储架构原理用户接口Hadoop驱动器：DriverHive文件格式Hive本质Hive工作原理Hive数据类型一、Hive介.
Java：什么是RPC框架？
2024-11-17 17:29

江梦寻的博客反序列化：根据协议格式，服务提供方就可以正确地从二进制数据中分割出不同的请求来，同时根据请求类型和序列化类型，把二进制的消息体逆向还原成请求对象。这个过程叫作“反序列化”。服务方响应(业务逻辑)：服务...
hive 默认的字段分隔符
2019-03-21 21:27

wangan094的博客 hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话，造数据在vi 打开文件里面，用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序，\002的输入方式为ctrl+v,...
没有解决我的问题, 去提问

hive默认的分割大小究竟是多少？128M 还是256M ？

2条回答 默认 最新

2条回答默认最新