qq_33785629 2022-05-21 17:53 采纳率: 50%
浏览 142
已结题

如何优化hive动态分区写入速度?

实现要求如下:
提取A库中T_A的数据进入Hive的a库中表t_a,添加动态分区,分区字段类型为String,且值为T_A表上的ORDERDATE字段的内容。
当分区数量很多 (大约要开启800多个分区) 有什么好的优化方法提升效率吗?
在不减少分区数量的情况下

  • 写回答

1条回答 默认 最新

  • 呔 小怪兽休走 2022-05-23 17:27
    关注

    查询最后加上
    distribute by ORDERDATE
    sort by ORDERDATE

    distribute by按照指定的字段将数据划分到不同的输出reduce中,可以保证每个reduce处理的数据范围不重叠,每个分区内的数据是没有排序的。
    sort by保证一个reduce内的数据按照指定字段排序,还可以指定reduce个数:set mapred.reduce.tasks=。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 6月2日
  • 已采纳回答 5月25日
  • 创建了问题 5月21日

悬赏问题

  • ¥35 平滑拟合曲线该如何生成
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
  • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
  • ¥15 自己瞎改改,结果现在又运行不了了
  • ¥15 链式存储应该如何解决
  • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站