Doris日增8TB数据，如何优化写入性能与存储效率？

**问题：** 在Doris中，面对每日新增8TB数据的高频率写入场景，如何优化写入性能与存储效率？常见挑战包括写入吞吐不足、数据重复、Compaction压力大、存储成本过高等。应如何从分区策略、数据模型、索引结构、写入方式及压缩策略等方面进行调优？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
白萝卜道士 2025-08-22 02:40
关注
一、写入性能与存储效率优化的背景与挑战

Apache Doris（原Palo）是一款高性能、实时分析型数据库，适用于大规模数据写入和复杂查询的场景。在面对每日新增8TB数据的高频率写入场景时，常见的性能瓶颈包括：

写入吞吐不足，导致延迟或数据堆积
数据重复插入，影响查询准确性和存储效率
Compaction任务压力大，影响写入与查询性能
存储成本过高，压缩与编码策略不合理

这些问题的根源往往在于数据模型设计、分区策略选择、索引结构配置、写入方式不合理以及压缩策略不匹配。

二、分区策略优化

分区策略直接影响数据分布、写入并行度和查询效率。

1. 按时间分区（Time-based Partitioning）

适用于时间序列数据，如日志、监控数据。每日一个分区可降低Compaction压力，并便于数据生命周期管理。

CREATE TABLE example_db.example_table ( ... ) PARTITION BY RANGE (event_date) ( PARTITION p20250401 VALUES LESS THAN ("2025-04-02"), PARTITION p20250402 VALUES LESS THAN ("2025-04-03") );

2. 动态分区（Dynamic Partition）

自动创建未来分区，适合数据持续写入的场景，减少人工维护成本。

PROPERTIES ( "dynamic_partition.enable" = "true", "dynamic_partition.time_unit" = "DAY", "dynamic_partition.start" = "-3", "dynamic_partition.end" = "3" )

三、数据模型设计

Doris支持多种数据模型：AGGREGATE、UNIQUE、DUPLICATE，选择合适的模型可显著影响写入性能与存储效率。

1. AGGREGATE模型

适用于需要聚合的数据场景，如统计类数据。可减少写入重复数据，降低Compaction压力。

2. UNIQUE模型

用于需要严格去重的场景，但写入性能较低，建议配合轻量级主键索引使用。

3. DUPLICATE模型

适用于原始日志、事件类数据，保留所有明细数据，写入效率高，但存储开销大。

模型类型适用场景写入性能存储效率
AGGREGATE 聚合统计中高
UNIQUE 严格去重低中
DUPLICATE 明细数据高低

四、索引结构优化

Doris支持前缀索引（ZoneMap、BloomFilter等），合理配置索引可提升写入效率。

1. 前缀索引（Prefix Index）

定义前几个字段作为索引键，提升查询效率。但索引字段过多会增加写入开销。

2. BloomFilter索引

用于加速等值查询，适合高基数字段，如用户ID、订单ID等。

PROPERTIES ("bloom_filter_columns"="user_id,order_id")

3. ZoneMap索引

自动为每个字段构建最小最大值索引，无需手动配置，对范围查询有帮助。

五、写入方式优化

写入方式的选择直接影响吞吐量与系统负载。

1. Stream Load

通过HTTP接口实时写入，适合单次批量写入（如1MB~100MB），推荐设置合适的批次大小。

2. Broker Load / Routine Load

适用于从Kafka等消息队列中持续拉取数据，支持高吞吐写入。

CREATE ROUTINE LOAD example_db.example_job ON example_table PROPERTIES( "desired_concurrent_number"="3", "max_batch_interval"="20" ) FROM KAFKA(...);

3. 写入并发控制

调整desired_concurrent_number控制并发任务数
设置max_batch_interval平衡写入频率与资源消耗

六、压缩与编码策略优化

合理的压缩与编码策略能显著降低存储成本，同时不影响查询性能。

1. 编码方式选择

DICT：适用于枚举型字段，如状态码、地区码
BITMAP：用于低基数字段的快速过滤
PLAIN：通用编码，适合字符串类字段

2. 压缩算法

LZ4：压缩比低，解压速度快
ZSTD：压缩比高，适合冷数据
GZIP：压缩比高，CPU开销较大

PROPERTIES ("compression"="zstd")

七、Compaction策略优化

Compaction是Doris后台合并数据版本的机制，频繁写入会导致大量版本堆积，影响读性能。

1. 调整Compaction参数

base_compaction_num_threads：控制Base Compaction线程数
cumulative_compaction_num_threads：控制Cumulative Compaction线程数
max_compaction_concurrency：限制Compaction并发任务数

2. 合理设置版本间隔

通过设置max_version_gap_to_use_delta等参数，控制版本合并频率，减少小版本堆积。

八、综合调优建议流程图
graph TD A[写入性能瓶颈] --> B{写入吞吐不足?} B -->|是| C[调整写入方式] B -->|否| D{数据重复问题?} D -->|是| E[选择UNIQUE模型] D -->|否| F{Compaction压力大?} F -->|是| G[优化Compaction参数] F -->|否| H{存储成本高?} H -->|是| I[调整压缩编码策略] H -->|否| J[完成调优]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

模型类型	适用场景	写入性能	存储效率
AGGREGATE	聚合统计	中	高
UNIQUE	严格去重	低	中
DUPLICATE	明细数据	高	低

报告相同问题？

关注问题

基于Doris的小程序用户增长实践
2021-05-18 00:26

过往记忆的博客导读：本文的主题为基于Doris的小程序用户增长实践，将从实际案例出发介绍基于 Doris 用户分层解决方案，重点分享了项目中的难点和架构解决方案，以及怎么使用 Doris做用户分层，如何...
基于 Doris 的小程序用户增长实践
2021-07-08 00:34

过往记忆的博客导读：本文的主题为基于Doris的小程序用户增长实践，将从实际案例出发介绍基于 Doris 用户分层解决方案，重点分享了项目中的难点和架构解决方案，以及怎么使用 Doris做用户分层，如何...
大数据多维分析：如何优化内存管理效率？
2025-10-26 10:55

AI软件工程实践的博客本文将带你跳出“加内存”的思维定式，从原理层到实践层，系统学习大数据多维分析中的内存管理优化技术。多维分析的内存消耗究竟...数据预处理：通过过滤、数据类型优化、列式存储，从源头减少内存输入；计算过程优化。
Apache Doris数据表设计：Doris简单使用；Doris基本概念；Doris数据模型；Doris列定义；Doris分区和分桶；Properties配置项；关于ENGINE；Doris索引
2024-02-12 14:07

学亮编程手记的博客关于Doris表的类型，可以通过在 mysql-client 中执行 HELP CREATE TABLE;查看。AGGREGATE KEY 数据模型Key 列必须在所有 Value 列之前。尽量选择整型类型。因为整型类型的计算和查找效率远高于字符串。对于不同长度...
亿级数据算不准？某财务中台的架构“换血“实录
2025-06-26 11:51

Java程序员拥抱ai的博客并发能力高并发（千级 QPS）中高并发（百级 QPS）低并发（单查询资源消耗高）数据压缩率高（列式压缩）高（类似 StarRocks）最高（列式压缩优化）单表性能：ClickHouse > StarRocks > Doris 多表关联：...
亿级数据算不准？转转财务中台的架构“换血“实录
2025-05-22 15:05

转转技术团队的博客从RPC调用断裂到StarRocks实时分析，如何用『维度建模』解决10%的指标差异？| 附SparkSQL优化代码
去哪儿网BI平台建设演进与实践
2021-12-01 11:33

过往记忆的博客作者介绍张杰，2015年1月加入去哪儿网，致力于数据为业务赋能，前期主要做离线、实时数仓建设，后期主要做数据平台建设，目前是数据建设-数据平台组负责人。杜峻辰，2018年11月加入去哪儿网...
阿里云数据库 SelectDB 版全面商业化，开启现代化实时数据仓库的全新篇章
2024-05-23 18:34

SelectDB技术团队的博客 2024 年 5 月 21 日，由阿里云联合飞轮科技共同举办的「阿里云数据库版商业化产品发布会」于线上召开。
秒级数据写入，毫秒查询响应，天眼查基于 Apache Doris 构建统一实时数仓
2023-05-17 17:47

CSDN资讯的博客在这样的背景下正式引入 Apache Doris 对数仓架构进行升级改造，实现了数据门户的统一，大大缩短了数据处理链路，数据导入速率提升 75 %，500 万及以下人群圈选可以实现毫秒级响应，收获了公司内部数据部门、业务方...
【实践案例分享】58的商业DMP数据管理平台的架构与实践
2020-08-26 19:49

木东居士的博客存储优化 ① 读写合并优化由于实时离线特征数据量太大，数据库的读写次数几乎等于流量日志的数量。我们做了如下优化：离线特征先在内存中合并单个用户当日的所有特征，再合并所有RDD中包含该用户特征的数据，最后...
大数据领域Doris与传统数据处理工具的对比
2025-08-13 14:53

AIGC应用创新大全的博客在这个数据驱动决策的时代，企业对数据价值的挖掘需求从未如此迫切。想象一下，当你作为一家电商平台的数据分析师，需要在"双11...传统的数据处理工具在面对这些"实时性"与"海量数据"双重挑战时，往往显得力不从心。
阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品
2025-07-15 15:48

阿里云大数据AI技术的博客 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。
贝壳 OLAP 平台架构及演进
2021-04-28 00:25

过往记忆的博客 ② 查询引擎，在指标平台与底层OLAP引擎之间引入统一的查询接口，屏蔽不同引擎查询语言的差异，保证数据应用层，如奥丁可视化、图灵等数据应用产品也不受底层多引擎切换影响。查询引擎把统一的查询请求转换到特定...
中台实践：数据中台建设五步法
2022-01-27 14:30

四月天03的博客数据中台这个东西，现在业界并没有一个完整的标准定义，数据中台至少首先是一个分布式的数据仓库，同时包含相对应实施的方法论和方案，介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。...
《ClickHouse企业级应用：入门、进阶与实战》1 全面了解ClickHouse
2023-01-31 13:53

程序员光剑的博客面对万亿级的数据查询分析也能做到亚秒级响应。那么，ClickHouse 到底是何方神圣？为什么如此受青睐？各位看官，欲知 ClickHouse 为何方神圣，且往下看。本章我们先来了解什么是ClickHouse，内容包括ClickHouse是...
史上最全OLAP对比
2021-04-13 10:38

只会写demo的程序猿的博客 4.并发能力与查询延迟对比 5.执行模型对比 5. OLAP引擎的主要特点 5.2 Spark SQL、Flink SQL 5.3Clickhouse 5.4Elasticsearch 5.5 Presto 5.6 Impala 5.7 Doris 5.8 Druid 5.9 Kylin 综上所述: 1. 什么...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月22日

Doris日增8TB数据，如何优化写入性能与存储效率？

1条回答 默认 最新

一、写入性能与存储效率优化的背景与挑战

二、分区策略优化

1. 按时间分区（Time-based Partitioning）

2. 动态分区（Dynamic Partition）

三、数据模型设计

1. AGGREGATE模型

2. UNIQUE模型

3. DUPLICATE模型

四、索引结构优化

1. 前缀索引（Prefix Index）

2. BloomFilter索引

3. ZoneMap索引

五、写入方式优化

1. Stream Load

2. Broker Load / Routine Load

3. 写入并发控制

六、压缩与编码策略优化

1. 编码方式选择

2. 压缩算法

七、Compaction策略优化

1. 调整Compaction参数

2. 合理设置版本间隔

八、综合调优建议流程图

问题事件

1条回答默认最新