例如如下语句
insert into table1 partition(xxx=xxx) select * from table2
即使数据只有两三条,也要2分钟,这是为什么?
例如如下语句
insert into table1 partition(xxx=xxx) select * from table2
即使数据只有两三条,也要2分钟,这是为什么?
你可以这样查看hive的执行计划:
> explain insert into t2 select value from t;
OK
Plan optimized by CBO.
Stage-3
Stats-Aggr Operator
Stage-0
Move Operator
table:{"name:":"default.t2"}
Stage-2
Dependency Collection{}
Stage-1
Map 1
File Output Operator [FS_2]
table:{"name:":"default.t2"}
Select Operator [SEL_1] (rows=3 width=1)
Output:["_col0"]
TableScan [TS_0] (rows=3 width=1)
default@t,t,Tbl:COMPLETE,Col:NONE,Output:["value"]
Hive的执行要转化成若干步map-reduce的过程,而且可能要在多个节点间通信,所以即便很少的数据可能也是费了半天劲才执行出来的。就是说hive是为了处理大数据的,对于小数据的处理并不是优势。