HIVE执行计划问题

train 存储方式为textfile, 条数 37912917
train_orc 表结构与 train一样，数据也完全一样，但存储方式为orc
现在相同语句对两张表进行操作，看执行计划

explain select avg(userid) from train_orc;

对 ORC表进行操作，看执行计划

STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree:
TableScan
alias: train_orc
Statistics: Num rows: **37912917 **Data size: **26425303149 **Basic stats: COMPLETE Column stats: NONE
Select Operator
expressions: userid (type: string)
outputColumnNames: userid
Statistics: Num rows: 37912917 Data size: 26425303149 Basic stats: COMPLETE Column stats: NONE
Group By Operator
aggregations: avg(userid)
mode: hash
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 256 Basic stats: COMPLETE Column stats: NONE
Reduce Output Operator
sort order:
Statistics: Num rows: 1 Data size: 256 Basic stats: COMPLETE Column stats: NONE
value expressions: _col0 (type: structcount:bigint,sum:double,input:string)

ORC表的操作执行计划 Statistics: Num rows: **37912917 ** 这里瞬间计算出全表条数

对 TEXTFILE表进行操作，看执行计划
explain select avg(userid) from train

STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree:
TableScan
alias: train
Statistics: Num rows: **13381927 **Data size: 1338192768 Basic stats: COMPLETE Column stats: NONE
Select Operator
expressions: userid (type: string)
outputColumnNames: userid
Statistics: Num rows: 13381927 Data size: 1338192768 Basic stats: COMPLETE Column stats: NONE
Group By Operator
aggregations: avg(userid)
mode: hash
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 256 Basic stats: COMPLETE Column stats: NONE
Reduce Output Operator
sort order:
Statistics: Num rows: 1 Data size: 256 Basic stats: COMPLETE Column stats: NONE
value expressions: _col0 (type: structcount:bigint,sum:double,input:string)

这里计算出来的条数却是13381927 ，与原表不符，而且结果出来的还慢, 请问这统计的 13381927 是从哪里出来的，这条数明显错误，但结果虽然慢，出来也是正确的，请大家帮忙解释下，感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

请问大家为什么我连接hive无法执行插入语句呀 hive 大数据数据库
2023-03-14 10:08

回答 1 已采纳 job的执行错误，看下你的脚本代码，去掉可能出错的部分再试试看
大数据hive分区表导入数据的问题 hive 大数据
2018-01-07 12:34

回答 5 已采纳 http://blog.csdn.net/fjssharpsword/article/details/64919412
hive执行map reduce任务失败 hive
2022-06-08 01:28

回答 2 已采纳 1 可能是你没登录成功2 查询语句需要写库名.表名，不然找不到
hive执行计划可视化工具
2023-05-31 16:22

总的来说，Hive执行计划可视化工具是大数据工程师和管理员的得力助手，它们提供了深入洞察Hive查询执行过程的能力，从而提高数据处理效率并优化集群资源使用。通过熟练掌握这类工具，用户可以更有效地管理和优化他们...
hive的执行顺序是什么 hive
2022-12-25 22:27

回答 2 已采纳 Hive 的执行顺序一般如下:语法检查: 在执行 Hive 查询之前, Hive 会对查询进行语法检查, 以确保查询的语法是正确的.解析: 在语法检查通过后, Hive 会解析查询, 将其转换为内部的
Hive数据库语句问题 hive mysql 数据库
2023-03-31 18:48

回答 2 已采纳基于Monster 组和GPT的调写： SELECT NAME AS NAMECASE, CASE WHEN t.TESTVALUE IS NOT NULL THEN CONCAT
hive sql 查询问题 hive
2022-04-27 18:15

回答 3 已采纳 select t1.xno as 产品编码, t1.name as 项目名称, sum(Case when t2.plevel="A" then 1 else
Hive执行计划之一文读懂Hive执行计划
2023-06-06 19:54

鲁边的博客 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤，通过执行计划解读...如果说Hive优化是一堵技术路上的高墙，那么关于Hive执行计划，就是爬上这堵高墙的一架梯子。不同版本的Hive会采用不同的方式生成的执行计划。
hive sql连接问题 hive mysql sql
2022-05-10 22:14

回答 3 已采纳 SELECT count(DISTINCT CASE WHEN p.user_id IS NOT NULL and p.add_date >=t.add_date THEN p.user_id
hive sql 使用问题 hive 有问必答
2022-01-04 17:07

回答 2 已采纳你第一个sql只是拼出一个字符串，并不是表名，当然不能直接代替表使用。像这种字符串拼接出来sql叫动态sql，不能直接作为sql执行，必须以程序化命令，比如存储过程、shell之类的，先拼出来完整的s
hive sql 填充数据的问题 hive sql 数据库
2022-01-15 15:13

回答 2 已采纳 hive有个函数Lag，取前n条，你可以指定取前一条，然后判断，如果本身是null或空，就取lag的前一条，否则就用本身。当然这个函数有个条件，是你得指定至少一个排序字段，否则无法判断哪个是上一条
hive sql 行列转置问题 hive sql 数据仓库有问必答
2022-01-15 13:24

回答 2 已采纳右边的6个列每2个列一组，加一个静态的职位字段，一共三个列，用union all拼接起来，再用字符串聚合把职位拼起来。这个方法应该是可用的。至于用lateral view explode进行行列转换的
HIVE文档，大数据离线技术基础
2022-09-08 08:38

Hive的工作流程大致如下：用户通过CLI或其他接口提交SQL查询，解析器将SQL语句转化为抽象语法树，经过语法和语义检查后，编译器生成MapReduce程序，优化器对执行计划进行优化，最后执行器负责将优化后的计划转化为...
Hive简明教程-大数据技术系列
2018-10-17 11:28

Hive将SQL语句转化为MapReduce任务，执行在Hadoop集群上。理解这种转换过程对于优化查询性能至关重要。例如，通过合理设计表分区可以显著提高查询速度，而避免全表扫描。同时，使用适当的Hive元数据存储策略，如选择...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月27日

悬赏问题

¥20 Wpf Datarid单元格闪烁效果的实现
¥15 图像分割、图像边缘提取
¥15 sqlserver执行存储过程报错
¥100 nuxt、uniapp、ruoyi-vue 相关发布问题
¥15 浮窗和全屏应用同时存在，全屏应用输入法无法弹出
¥100 matlab2009 32位一直初始化
¥15 Expected type 'str | PathLike[str]…… bytes' instead
¥15 三极管电路求解，已知电阻电压和三级关放大倍数
¥15 ADS时域连续相位观察方法
¥15 Opencv配置出错

HIVE执行计划问题

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新