实现要求如下:
提取A库中T_A的数据进入Hive的a库中表t_a,添加动态分区,分区字段类型为String,且值为T_A表上的ORDERDATE字段的内容。
当分区数量很多 (大约要开启800多个分区) 有什么好的优化方法提升效率吗?
在不减少分区数量的情况下
![](https://profile-avatar.csdnimg.cn/839c438a841d4734a623779404f25389_qq_33785629.jpg!4)
如何优化hive动态分区写入速度?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- 呔 小怪兽休走 2022-05-23 17:27关注
查询最后加上
distribute by ORDERDATE
sort by ORDERDATEdistribute by按照指定的字段将数据划分到不同的输出reduce中,可以保证每个reduce处理的数据范围不重叠,每个分区内的数据是没有排序的。
sort by保证一个reduce内的数据按照指定字段排序,还可以指定reduce个数:set mapred.reduce.tasks=。本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 1无用
悬赏问题
- ¥15 metadata提取的PDF元数据,如何转换为一个Excel
- ¥15 关于arduino编程toCharArray()函数的使用
- ¥100 vc++混合CEF采用CLR方式编译报错
- ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
- ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
- ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
- ¥50 如何openEuler 22.03上安装配置drbd
- ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
- ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
- ¥15 Windows11, backspace, enter, space键失灵