rpmdeb 2019-08-15 02:34 采纳率: 0%
浏览 624
已采纳

hive 里面不能split lzo的文件,这是怎么回事?

创建testlzo表

CREATE external TABLE `testlzo`(
  xxxx)
row format delimited
fields terminated by '|'
STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"
LOCATION '/nginx/testlzo';

执行查询

select count(*) from testlzo;

没有建索引时

$ hadoop fs -du -s -h /nginx/testlzo/*
427.8 M  1.3 G  /nginx/testlzo/123.lzo

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

1679356

建立索引

hadoop jar hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer  /nginx/testlzo/123.lzo

$ hadoop fs -du -s -h /nginx/testlzo/*
427.8 M  1.3 G  /nginx/testlzo/123.lzo
32.0 K  96.0 K  /nginx/testlzo/123.lzo.index

Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1
1679759

可以看到 并没有hive 并没有split lzo文件,并且还把index文件算进去了,这是怎么回事?

并且,使用stream方式,是可以split的

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar wordcount   -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /nginx/testlzo/123.lzo /tmp/2019081401
执行这句的时候,可以看到split 4 ,确实是可以分割的,但是hive为什么没有分割了? hive的版本是2.3.5 
  • 写回答

2条回答 默认 最新

  • rpmdeb 2019-08-15 04:51
    关注

    在进入hive shell后,SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat ; 解决了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)
编辑
预览

报告相同问题?

悬赏问题

  • ¥15 torch框架下的强化学习DQN训练奖励值浮动过低,希望指导如何调整
  • ¥35 西门子博图v16安装密钥提示CryptAcquireContext MS_DEF_PROV Error of containger opening
  • ¥15 mes系统扫码追溯功能
  • ¥40 selenium访问信用中国
  • ¥20 在搭建fabric网络过程中遇到“无法使用新的生命周期”的报错
  • ¥15 Python中关于代码运行报错的问题
  • ¥500 python 的API,有酬谢
  • ¥15 软件冲突问题,软件残留问题
  • ¥30 有没有人会写hLDA,有偿求写,我有一个文档,想通过hLDA得出这个文档的层次主题,有偿有偿!
  • ¥50 有没有人会写hLDA,有偿求写,我有一个文档,想通过hLDA得出这个文档的层次主题,有偿有偿!
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部