rpmdeb 2019-08-20 16:52 采纳率: 0%
浏览 999

hive默认的分割大小究竟是多少?128M 还是256M ?

一个280M 的txt文本文件,hive 进入shell 以后,select count(*) from test;
查看运行日志,有两个map,一个map256M ,另外一个24M;可以看到默认的设置

    mapreduce.input.fileinputformat.split.maxsize   256000000   
    mapreduce.input.fileinputformat.split.minsize   1

blocksize 为128M

看到一篇文章,说的splitsize由什么参数决定的

  参考地址:https://www.cnblogs.com/codeOfLife/p/5676754.html
  当mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize > dfs.blockSize的情况下,此时的splitSize 将由mapreduce.input.fileinputformat.split.minsize参数决定

  当mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize的情况下,此时的splitSize 将由dfs.blockSize配置决定

  当dfs.blockSize > mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize的情况下,此时的splitSize将由mapreduce.input.fileinputformat.split.maxsize参数决定。

按照上面的说法,在默认的情况下

    mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize

    256000000 > 128M > 1

那么280M的文本文件应该是以128M来切割的,应该有3个map,但是为什么是按照256M切割的了?
  • 写回答

2条回答

  • zdkdchao 2021-12-12 22:41
    关注

    找到原因了吗,正常应该是按128切片的

    评论

报告相同问题?

悬赏问题

  • ¥50 易语言把MYSQL数据库中的数据添加至组合框
  • ¥20 求数据集和代码#有偿答复
  • ¥15 关于下拉菜单选项关联的问题
  • ¥20 java-OJ-健康体检
  • ¥15 rs485的上拉下拉,不会对a-b<-200mv有影响吗,就是接受时,对判断逻辑0有影响吗
  • ¥15 使用phpstudy在云服务器上搭建个人网站
  • ¥15 应该如何判断含间隙的曲柄摇杆机构,轴与轴承是否发生了碰撞?
  • ¥15 vue3+express部署到nginx
  • ¥20 搭建pt1000三线制高精度测温电路
  • ¥15 使用Jdk8自带的算法,和Jdk11自带的加密结果会一样吗,不一样的话有什么解决方案,Jdk不能升级的情况