Doris如何高效导入Excel文件（.xlsx/.xls）数据？

**常见技术问题：** Doris本身不支持直接读取Excel（.xlsx/.xls）文件，用户常误以为可通过`LOAD LABEL`或Stream Load上传Excel二进制文件实现导入，结果报错“unsupported file format”或数据乱码。根本原因在于Doris的导入机制（如Stream Load、Broker Load、Routine Load）仅接受结构化文本格式（CSV/JSON/Parquet等），而Excel是二进制容器格式，需先解析行列、类型、公式、合并单元格等复杂结构。若用Python脚本逐行读取再拼接CSV后导入，小文件尚可，但面对百MB级Excel时易因内存溢出、类型推断错误（如数字被转为科学计数法）、时区/日期格式丢失等问题导致数据失真或导入失败。此外，缺乏事务保障与断点续传能力，重试成本高。因此，如何在保证数据精度、类型一致性与导入吞吐量的前提下，构建稳定、可监控、支持大文件的Excel→Doris自动化链路，是企业级应用中的典型痛点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

娟娟童装 2026-04-05 20:35

关注

```html

一、现象层：典型报错与用户误操作模式

执行 curl -X PUT -H "label:excel_load" --data-binary @data.xlsx http://fe_host:8030/api/db/tbl/_stream_load 返回 {"Status":"Fail","Message":"unsupported file format"}
使用 Broker Load 指定 "path"="hdfs://xxx/data.xlsx"，BE 日志报 Invalid Excel magic number
用 pandas.read_excel() 读取后调用 to_csv(..., index=False) 导出再 Stream Load，10MB Excel 导致内存占用飙升至 8GB+，OOM 被 OS Kill
日期列（如 2024/03/15 14:22:08）在 CSV 中变为 45365.5987（Excel 序列号），Doris 导入后转为乱码时间戳

二、机理层：Doris 导入协议栈与 Excel 格式本质冲突

下图揭示核心矛盾：

graph LR A[Excel .xlsx] -->|ZIP容器+XML+Binary| B(OpenXML SDK / Apache POI) B --> C{结构解析层} C --> D[行列坐标映射] C --> E[单元格类型推断
（string/number/date/formula）] C --> F[合并单元格还原逻辑] C --> G[公式求值或占位标记] D --> H[Doris可接受格式] E --> H F --> H G --> H H -->|仅支持| I[CSV/JSON/Parquet/TXT] I --> J[Doris FE Parser → BE Load Process] J --> K[无事务/无回滚/无Checkpoint]

三、工程层：主流方案对比与缺陷归因

方案	吞吐量（100MB Excel）	精度保障	断点续传	监控能力	适用场景
纯 Pandas + CSV 中转	≈8 min（单线程）	❌ 日期/科学计数法失真	❌ 全量重试	❌ 仅靠 print	POC 验证
Apache Spark + Doris Spark Connector	≈2.3 min（8c16g集群）	✅ Schema 显式定义 + 类型强制	✅ RDD Checkpoint + WAL	✅ Spark UI + Metrics	中大型数据平台
Doris 2.1+ 自定义 External Table（Excel JDBC）	N/A（尚未官方支持）	⚠️ 依赖第三方 JDBC Driver 稳定性	❌ 无原生支持	❌ 日志粒度粗	实验性探索

四、架构层：企业级 Excel→Doris 可观测流水线设计

前置校验服务：基于 openpyxl 流式读取首 100 行，校验空行、合并单元格占比、日期列正则匹配（\d{4}[-/]\d{1,2}[-/]\d{1,2}）
智能类型引擎：对数值列启用 pd.to_numeric(..., downcast='integer') + 科学计数法防爆检测
分块导出管道：将 Excel 拆为 50k 行/块，每块生成独立 CSV + SHA256 校验文件，写入对象存储（S3/OSS）
幂等导入控制器：基于 Doris LOAD LABEL 唯一性 + MySQL 元数据库记录 file_id, block_no, status, md5
可观测中枢：Prometheus Exporter 暴露指标 excel_import_blocks_total{status="success"} 120，Grafana 看板联动告警

五、实践层：生产就绪代码片段（Spark Scala）


// 1. 安全读取Excel（避免OOM）
val excelDF = spark.read
  .format("com.crealytics.spark.excel")
  .option("dataAddress", "'Sheet1'!A1:ZZ1000000") // 显式范围防全表扫描
  .option("useHeader", "true")
  .option("treatEmptyValuesAsNulls", "true")
  .option("inferSchema", "false") // 关闭自动推断！
  .schema(customSchema) // 强制指定：StructType(Seq(
                           //   StructField("order_date", DateType, true),
                           //   StructField("amount", DecimalType(18,2), false)
                           // ))
  .load("oss://bucket/excel/2024Q1_sales.xlsx")

// 2. 写入Doris（启用两阶段提交语义）
excelDF.write
  .format("doris")
  .option("doris.table.identifier", "db.tbl")
  .option("doris.fenodes", "fe1:8030,fe2:8030")
  .option("doris.user", "prod_user")
  .option("doris.password", "***")
  .option("doris.write.fields", "order_date,amount,cust_id")
  .option("doris.batch.size", "100000")
  .option("doris.enable.upsert.delete", "true") // 支持主键更新
  .mode("Append")
  .save()

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

doris导入Excel的xlsx格式数据
2024-02-01 21:11

青云游子的博客 1.把xlsx格式另存为csv格式。2.上传到Linux。4.转换为utf-8。
2. Doris数据导入与导出
2025-01-13 19:45

苍老流年的博客用户在提交导入任务后，FE 会生成对应的 Plan 并根据目前 BE 的个数和文件的大小，将 Plan 分给多个 BE 执行，每个 BE 执行一部分导入数据。一个 Routine Load Task 提交后，会继续生成新的 Task，或对超时的 Task ...
doris-0.12.tar.gz已编译
2020-11-27 15:44

2. **配置环境**：进入解压后的目录，找到配置文件如`conf/doris.conf`，根据实际环境配置FE和BE的IP、端口、数据目录等参数。 3. **启动Doris**：启动FE和BE服务，通常使用`bin/start_fe.sh`和`bin/start_be.sh`...
4.Doris数据导入导出
2024-01-25 16:21

夹毛局的程序员的博客该功能可以将用户指定的表或分区的数据，以指定的文件格式，通过 Broker 进程或 S3协议/HDFS协议导出到远端存储上，如对象存储 / HDFS。Doris 的每一个导入作业，不论是使用 Broker Load 进行批量导入，还是使用 ...
Doris 2.x与3.x版本差异与新增特性
2025-04-29 01:13

有梦想的攻城狮的博客 Iceberg/Hudi外部表支持（实验性）：直接查询云上Iceberg/Hudi表，无需数据迁移。JIT编译优化（实验性）：对热点表达式（如正则匹配、数学计算）进行运行时编译，提升单算子性能。支持全异步执行，消除线程阻塞，...
深入Doris实时数仓：导入本地数据
2024-04-24 18:02

程序员1970的博客 Doris 的每一个导入作业，不论是使用 Broker Load 进行批量导入，还是使用 INSERT 语句进行单条导入，都是一个完整的事务操作。导入事务可以保证一批次内的数据原子生效，不会出现部分数据写入的情况。同时，一个...
三.海量数据实时分析-FlinkCDC实现Mysql数据同步到Doris
2024-09-07 08:25

墨家巨子@俏如来的博客通过上面的 route 配置，会将 app_db.orders 表的结构和数据同步到 ods_db.ods_orders 中。这样，就可以将诸如 app_db.order01、app_db.order02、app_db.order03 的表汇总到 ods_db.ods_orders 中。参考：...
报错Failed to get response from https://registry.npmmirror.com/binary-mirror-config解决办法
2022-05-09 17:20

里见HU的博客在创建vue项目的时候出现这种报错Failed to get response from https://registry.npmmirror.com/binary-mirror-config，一开始以为是脚手架版本的问题，但后来发现其实...只需将.vuerc文件里的 “useTaobaoRegistry”:
Doris 文件导入，以及doris 库里的数据开发
2024-06-18 21:30

WnHj的博客主要内容包括：1) 三种数据导入方式 - Broker Load、Stream Load和Insert Into，重点讲解了Stream Load的CSV/JSON文件导入方法及注意事项；2) 数据加工方案，由于Doris不支持存储过程，提出了通过Shell脚本实现数据...
解决unable to access ‘https://github.com/xxx/xxx.git/‘: OpenSSL SSL_read: Connection was reset, errno
2021-05-12 17:07

卷卷THY的博客 # 关联远程仓库后，把本地库的所有内容推送到远程库上时因为输错密码，再次推送时报错：unable to access ‘https://github.com/juanjuan-thy/jenkins_project.git/’: OpenSSL SSL_read: Connection was reset, ...
Doris数据导入
2024-10-27 20:46

SHFIRM的博客 Doris高度兼容MySQL语法，但不建议在生产环境中使用 INSERT INTO VALUES插入数据。以下将记录通过外部表Multi-Catalog及Routine Load两种方式进行数据导入。使用外部表Multi-Catalog可以通过INSERT INTO SELECT的...
使用GO语言通过Stream Load实现Doris数据导入
2021-12-10 10:50

hf200012的博客 Doris的数据导入有各种语言的版本，但是GO语言版本的基本见不到，简单学了一下，写了一个简单的Stream Load入库的示例，仅供参考示例中使用的表结构： CREATE TABLE IF NOT EXISTS user_info ( user_id ...
Doris专题17- 数据导入-文件格式
2025-10-08 16:34

孟意昶的博客 Apache Doris 支持多种文件格式的数据导入，每种格式都有其特定的使用场景和配置参数。本笔记详细记录了 ORC、Parquet、JSON 和 CSV 格式的导入方法和最佳实践。结构化数据：优先选择 ORC 或 Parquet，性能最佳半...
doris: CSV导入数据
2025-01-25 22:28

向阳1218的博客 doris: CSV导入数据
一.海量数据实时分析-Doris入门和安装
2024-09-01 21:31

墨家巨子@俏如来的博客停了一个月又开始写文章啦，因为公司数据量达到了几十亿，老板需要做实时数据分析，报表看板。Apache Doris 由百度大数据部研发（之前叫百度 Palo，2018 年贡献到 Apache 社区后，更名为 Doris ），在百度内部，有...
doris:Kafka 导入数据
2025-01-17 10:48

向阳1218的博客 doris:Kafka 导入数据
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月5日