xlsx库解析Excel时中文乱码如何解决？

使用 xlsx 库（如 Node.js 中的 `xlsx` 或 Python 中的 `openpyxl`）解析 Excel 文件时，中文出现乱码的常见原因是文件编码或读取方式未正确处理 Unicode 字符。尤其当 Excel 文件以二进制格式（如 .xls）保存或未明确指定编码时，库可能默认使用 ASCII 或其他非 UTF-8 编码解析文本，导致中文字符显示为乱码。此外，部分库在处理流式数据或 Buffer 时若未设置正确的字符集选项，也会引发该问题。如何确保 xlsx 库正确识别和解析包含中文的单元格内容？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

fafa阿花 2025-11-11 14:23

关注

1. 乱码问题的表层现象与常见表现

在使用 xlsx（Node.js）或 openpyxl（Python）解析 Excel 文件时，中文内容常表现为如下乱码形式：

æ³å¸äººæ°é¶è¡Œ
????
北京（未解码的 HTML 实体）

这类问题多出现在以下场景中：

读取 .xls 格式文件（二进制格式，非 XML）
通过 HTTP 请求流式读取远程 Excel 文件
处理 Buffer 数据而未指定编码类型
跨平台传输中字符集转换丢失

根本原因通常并非库本身缺陷，而是数据输入阶段未正确识别 Unicode 编码。

2. 深入分析：Excel 文件格式与编码机制

文件扩展名	格式标准	编码支持	典型解析库
.xlsx	Office Open XML (ECMA-376)	UTF-8 内嵌于 ZIP 容器中	xlsx, openpyxl
.xls	Binary Interchange File Format (BIFF)	可包含 Code Page 或 Unicode 记录	xlsx, xlrd
.csv (with .xls)	文本格式伪装为 Excel	依赖 BOM 或显式声明编码	pandas, fs + xlsx

关键点在于：.xlsx 文件本质上是 ZIP 压缩包，其内部 XML 文件默认采用 UTF-8 编码；而 .xls 是二进制结构，可能使用 ANSI、Shift-JIS 或 UTF-16LE 等编码方式存储字符串记录。若解析器未能自动检测或强制设定编码，则中文极易出现乱码。

3. Node.js 中 xlsx 库的正确使用方式

以 SheetJS/js-xlsx 为例，确保中文正常显示的关键在于：


const XLSX = require('xlsx');
const fs = require('fs');

// 方式一：直接读取文件（推荐）
const workbook = XLSX.readFile('chinese_data.xls', {
  type: 'file',
  codepage: 65001  // 显式指定 UTF-8
});

// 方式二：处理 Buffer（如从网络请求获取）
const buffer = fs.readFileSync('chinese_data.xlsx');
const workbookFromBuf = XLSX.read(buffer, {
  type: 'buffer',
  encoding: 'utf-8'
});

// 提取数据并验证中文
const sheetName = workbook.SheetNames[0];
const worksheet = workbook.Sheets[sheetName];
const jsonData = XLSX.utils.sheet_to_json(worksheet, { header: 1 });
console.log(jsonData[0]); // 应正确输出 ['姓名', '城市'] 而非乱码

注意：codepage: 65001 是 Windows 下对 UTF-8 的标识，能有效提升对旧版 .xls 文件中宽字符的支持。

4. Python 中 openpyxl 与编码兼容性处理

openpyxl 专为 .xlsx 设计，默认支持 UTF-8，但仍需注意上下文环境：


import openpyxl
from io import BytesIO
import requests

# 场景：从 URL 流式加载 Excel 文件
response = requests.get("https://example.com/data.xlsx")
response.raise_for_status()

# 必须使用 BytesIO 包装二进制内容
workbook = openpyxl.load_workbook(BytesIO(response.content))
sheet = workbook.active

for row in sheet.iter_rows(values_only=True):
    print(row)  # 正确输出中文如 ('张三', '北京')

若误将字节流当作文本流处理（例如使用 StringIO），则必然导致解码错误。务必保证在整个 I/O 链路中保持二进制透明传输。

5. 综合诊断流程图

graph TD A[开始解析Excel] --> B{文件格式?} B -- .xlsx --> C[使用openpyxl/XLSX.read] B -- .xls --> D[检查是否含BOM/CodePage] C --> E[确认输入为Buffer/Binary] D --> F[设置codepage=65001或type=buffer] E --> G[提取单元格值] F --> G G --> H{存在乱码?} H -- 是 --> I[检查系统locale及终端编码] H -- 否 --> J[成功解析中文] I --> K[重试并强制UTF-8解码]

6. 高级建议与最佳实践

统一使用 .xlsx 格式替代 .xls，避免 BIFF 编码歧义
在服务端处理前，可通过 file 命令检测文件实际类型：file --mime-type your_file.xls
对于上传接口，设置 Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
使用 chardet（Python）或 detect-character-encoding（Node.js）预判编码
日志输出时确保控制台支持 UTF-8（Linux/macOS 一般无问题，Windows 需设置 chcp 65001）
测试用例应包含常用中文字符集：简体、繁体、emoji（如 🇨🇳）
考虑使用 pandas.read_excel() 作为封装层，其底层已集成多种引擎容错机制
对老旧系统导出的 Excel，建议先用 LibreOffice 批量转存为标准 .xlsx
部署环境中设置环境变量 LANG=zh_CN.UTF-8 可减少潜在编码冲突
前端导出时添加 BOM 头（\ufeff）有助于 Excel 正确识别 UTF-8

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

PLSQL导出CSV后中文乱码解决办法
2023-03-13 10:47

当需要将PLSQL查询结果导出为CSV（Comma Separated Values）格式时，可能会遇到中文字符显示为乱码的问题。这个问题通常是由于编码格式不匹配导致的，下面我们将详细探讨如何解决PLSQL导出CSV后中文乱码的问题。 ...
Java下载excel文件名中文乱码解决
2023-07-11 10:29

上海名猿小王的博客首先，让我们了解一下为什么会出现文件名中文乱码的情况。
ABAP2XLSX实战：高效解析Excel数据并精准导入SAP系统
2025-08-15 06:58

cream的博客本文详细介绍了如何使用ABAP2XLSX库高效解析Excel数据并导入SAP系统。通过对比传统方法，ABAP2XLSX在处理XLSX格式文件时速度更快、兼容性更好。文章提供了从安装配置、核心代码实战到处理日期货币等业务难题的完整...
Excel打开CSV文件中文乱码的两种解决方案
2025-11-20 10:14

pearlowl67的博客 CSV文件通常采用UTF-8编码存储，而Excel默认使用ANSI编码方式打开文件，这两种编码标准对中文字符的处理方式不同，导致直接打开时出现乱码现象。此方法会永久改变文件编码，适合需要频繁编辑CSV文件的用户。需要注意...
python读excel乱码_解决Python2.7读写文件中的中文乱码问题
2020-11-21 04:14

weixin_39673742的博客设置默认编码在Python代码中的任何地方出现中文，编译时都会报错，这时可以在代码的首行添加相应说明,明确utf-8编码格式，可以解决一般情况下的中文报错。当然，编程中遇到具体问题还需具体分析啦。#encoding:ut...
解决Vue.js导出Excel时出现乱码问题
2023-09-25 00:25

PixelLogic的博客在Vue.js应用程序中使用Excel导出功能时，有时会遇到导出的Excel文件中出现乱码的问题。在本文中，我将向您展示如何解决这个问题并确保导出的Excel文件中的数据能够正确显示。首先，我们需要确定要导出的数据的字符...
避坑指南：Spring Boot+Tika解析Excel时遇到的编码问题与内存优化方案
2025-09-10 10:50

w1x2y3的博客本文深入探讨了在Spring Boot应用中集成Apache Tika解析Excel文件时，如何有效解决中文乱码编码问题与防范大文件内存溢出（OOM）。通过分析编码探测失效根源，提供了强制指定编码与定制TikaConfig的实战方案；针对...
aardio处理Excel数据避坑指南：解决中文乱码和格式转换问题
2025-09-16 06:24

gold的博客本文深度解析使用aardio处理Excel数据时常见的中文乱码与格式转换问题。文章从编码原理与COM接口传输入手，提供了构建健壮读取管道、精准转换日期数字格式的实战代码方案，并探讨了如何在listview控件中高效优雅地...
解决JS导出Excel文件乱码问题：responseType与responseEncoding的正确配置
2025-11-01 11:09

silver的博客本文深入解析了前端导出Excel文件时出现乱码或‘文件格式无效’错误的根本原因，并提供了完整的解决方案。核心在于正确配置请求的`responseType`为‘blob’，以确保浏览器将响应作为二进制文件处理，而非错误解码为...
Excel MCP Server:用自然语言操控 Excel,开启“对话式电子表格“新时代
2026-03-16 08:51

Dylan～～～的博客是由开发者 Haris Musa 开源的一款基于 MCP 协议的服务器实现,它将 Excel 的强大功能封装为可被大语言模型直接调用的工具。无需安装 Excel- 仅需 Python 环境即可运行完整功能支持- 创建、读取、修改、分析 Excel ...
深入讲解Java！java读取excel文件乱码
2021-07-07 02:32

椰果学Android的博客 Docker虚拟化技术 5，开源框架解析专题 spring5概述 Spring5 Framework体系结构 Spring5环境搭建 IOC源码解析 AOP源码解析 Spring MVC Mybatis 6，架构师筑基专题（这里主要列举并发编程进阶、JVM性能调优知识点） ...
Java导出Excel解决乱码及导出文件打开不可读需修复的问题
2020-03-10 14:55

强哥叨逼叨的博客 InputStream bis = new BufferedInputStream(new ClassPathResource(filePath).getInputStream())){ // 设置信息给客户端不解析 String type = new MimetypesFileTypeMap().getContentType(filename); // 设置...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月11日