hive 里面不能split lzo的文件，这是怎么回事？

创建testlzo表

CREATE external TABLE `testlzo`(
  xxxx)
row format delimited
fields terminated by '|'
STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"
LOCATION '/nginx/testlzo';

执行查询

select count(*) from testlzo;

没有建索引时

$ hadoop fs -du -s -h /nginx/testlzo/*
427.8 M  1.3 G  /nginx/testlzo/123.lzo

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

1679356

建立索引

hadoop jar hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer  /nginx/testlzo/123.lzo

$ hadoop fs -du -s -h /nginx/testlzo/*
427.8 M  1.3 G  /nginx/testlzo/123.lzo
32.0 K  96.0 K  /nginx/testlzo/123.lzo.index

Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1
1679759

可以看到并没有hive 并没有split lzo文件，并且还把index文件算进去了，这是怎么回事？

并且，使用stream方式，是可以split的

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar wordcount   -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /nginx/testlzo/123.lzo /tmp/2019081401
执行这句的时候，可以看到split 4 ，确实是可以分割的，但是hive为什么没有分割了？ hive的版本是2.3.5

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
rpmdeb 2019-08-15 12:51
关注
在进入hive shell后，SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat ; 解决了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

hive LZO压缩
2020-04-22 13:37

大数据东哥(Aidon)的博客 hive LZO压缩本文环境介绍：软件版本备注 centos 6.5 hadoop 2.7.1 2.7.*即可 hive 2.3.6 lzo 2.10 需要独立安装 1 lzo压缩 1.1 lzo的简介 1.1.1 lzo定义 LZO 是致力于解压速度的一种数据压缩...
大数据开发之Hive篇-Hive数据类型及文件格式
2025-07-04 16:33

xinghaoyan的博客除了默认的几种文件格式，用户还可以自定义文件格式通过继承InputFormat和OutputFormat来自定义文件格式创建表时指定InputFormat和OutputFormat，来读叏Hive中的数据。
hadoop 读取orc文件和读取lzo文件
2023-03-08 16:39

行走荷尔蒙的博客测试结果：”org.apache.hadoop.hive.ql.io.orc.OrcInputFormat” 性能高于 “org.apache.orc.mapred.OrcInputFormat”Hadoop jar提交参数。
Hive（总）看完这篇，别说你不会Hive！
2020-09-24 16:11

子清.的博客文章目录1.Hive入门1.1什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3Hive架构原理2.Hive安装2.1Hive安装2.2HiveJDBC访问2.2.1启动hiveserver2服务2.2.2连接hiveserver2服务2.2.3注意2.3Hive常用交互命令2.4...
Hive文件存储格式和Hive数据压缩小总结
2021-08-14 09:30

浪尖聊大数据-浪尖的博客一、存储格式行存储和列存储行存储可以理解为一条记录存储一行，通过条件能够查询一整行数据。列存储，以字段聚集存储，可以理解为相同的字段存储在一起。二、Hive文件存储格式TEXTFILEHi...
数仓面试高频考点--解决hive小文件过多问题
2022-04-07 08:40

浪尖聊大数据-浪尖的博客小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生，所以先看下向 hive 中导入数据的几种方式直接向表中插入数据insertintotableAvalues(1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生...
大数据开发之Hive篇2-Hive数据类型及文件格式
2020-12-18 13:53

只是甲的博客文章目录一.Hive的数据类型1.1 数值类型2.2 字符类型2.3 日期时间类型2.4 布尔类型2.5 复合数据类型二.Hive文件格式2.1 text格式2.2 Sequence文件2.3 RCFile2.4 ORC2.4.1 测试数据准备2.4.2 对比text和ORC格式的大小...
hive一次加载多个文件_hive小结 - 校招准备
2020-10-21 22:26

weixin_39901077的博客行转列:explode列转行:使用函数：concat_ws(',',collect_set(column)) 说明：collect_list 不去重，collect_set 去重。 column的数据类型要求是stringhive 基础知识的总结回顾内含我收集的几个sql题目, 用来回顾练...
打工人必备：Hive小文件合并与数据压缩
2021-02-24 09:00

浪尖聊大数据-浪尖的博客 Hive仓库表数据最终是存储在HDFS上，由于Hadoop的特性，对大文件的处理非常高效。而且大文件可以减少文件元数据信息，减轻NameNode的存储压力。但是在数据仓库中，越是上层的表汇...
Hive - ORC 文件存储格式详细解析
2020-11-25 23:01

王知无(import_bigdata)的博客点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！大数据真好玩点击右侧关注，大数据真好玩！一、ORC File文件结构OR...
没有解决我的问题, 去提问

hive 里面不能split lzo的文件，这是怎么回事？

2条回答 默认 最新

2条回答默认最新