如何优化hive动态分区写入速度？

实现要求如下:
提取A库中T_A的数据进入Hive的a库中表t_a，添加动态分区，分区字段类型为String，且值为T_A表上的ORDERDATE字段的内容。
当分区数量很多 (大约要开启800多个分区) 有什么好的优化方法提升效率吗？
在不减少分区数量的情况下

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
呔小怪兽休走 2022-05-23 17:27
关注
查询最后加上
distribute by ORDERDATE
sort by ORDERDATE

distribute by按照指定的字段将数据划分到不同的输出reduce中，可以保证每个reduce处理的数据范围不重叠，每个分区内的数据是没有排序的。
sort by保证一个reduce内的数据按照指定字段排序，还可以指定reduce个数：set mapred.reduce.tasks=。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hive 优化（一）超大数据集动态分区优化
2019-02-27 18:11

委婉的狮子的博客（1）方案：直接全表去重并按照字段 动态分区 结果：失败，由于数据量和字段过多，全表去重（row_number over()）和 动态分区 都消耗过多资源，根本无法运行成功（2）方案: 1.全表去重到中间表 2.中间表动...
Hive动态分区问题记录
2022-09-26 11:11

ThomasgGx的博客 hive在动态分区在数据量很大目标分区比较多时
Hive性能调优之动态分区调整
2020-07-18 11:26

寒暄的博客同时也可以调配参数设置全动态分区，而且也可以调配一个job与节点上的动态分区数来加快job执行速度。 -- 开启动态分区功能（默认开启） set hive.exec.dynamic.partition = true; -- 启用非严格模式（这样所有的分区...
大数据学习11之Hive优化篇
2024-11-08 20:58

Natural_yz的博客缺点：与 RC 和 ORC 一样，Parquet 也具有压缩和查询性能方面的优点，与非列文件格式相比，写入速度通常较慢。 3.Hive优化 3.1EXPLAIN 执行计划通过查看explain执行计划可用了解到SQL语句的执行过程是怎样的，...
大数据之Hive基础
2024-11-20 11:50

羊咩咩爱学习的博客 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是将HQL转化为MapReduce分类：1）UDF 一进一出2）UDAF 聚集函数，多进一出（类似于count，max）3）UDTF ...
【大数据】一篇认识Hive
2024-10-09 19:24

编码人生_的博客文章目录一、数据仓库1.1、数据仓库概念1.2、数据仓库核心特征1.3、数据库和数据仓库的区别1.4、数据仓库分层架构[**重要**]1.5、ETL和ELT二、Apache Hive2.1、Hive的概念2.2、Hive的架构组件(非常重要)2.3、Hive和...
利用大数据领域 Hive 进行实时数据监控
2025-05-03 10:29

光子AI的博客传统实时监控多依赖Kafka+Flink等流处理框架，但Hive作为大数据领域的经典数据仓库工具，通过优化（如LLAP、小文件治理）可实现分钟级准实时监控，弥补批处理与流处理间的能力 gap。本文聚焦Hive在分钟级准实时监控...
猛踩Hive动态分区的坑？这份调优秘籍让你和大数据面试官聊到嗨！
2025-09-23 00:02

RunningShare的博客 Hive动态分区调优指南：避坑与优化本文深入剖析了Hive动态分区使用中的两大核心风险：分区爆炸和小文件问题。针对分区爆炸，提出了参数调优四件套（max.dynamic.partitions等）和分区键设计原则；针对小文件问题，...
hive动态分区问题总结
2021-07-12 14:14

雾岛与鲸的博客 Hive 配置动态分区 insert into table xxx partition(xxxx) select ... 使用动态分区时首先需要的一些配置：是否开启动态分区 hive.exec.dynamic.partition 动态分区是否使用严格模式 hive.exec.dynamic....
hive大量数据导入分区表时过慢优化
2021-03-08 15:14

kamisamak的博客 reduce先将数据写入到hdfs,再load加载数据 public static void main(String[] args) throws URISyntaxException, IOException, TaskExecFailException { //设置链接的服务器 ConnBean connBe...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月21日

如何优化hive动态分区写入速度？

1条回答 默认 最新

问题事件

1条回答默认最新