Pandas读取xlsx和xls文件时，默认引擎有何不同？

在使用Pandas读取Excel文件时，`read_excel`函数会根据文件扩展名自动选择默认引擎。当读取`.xls`文件时，默认使用`xlrd`引擎，但需要注意的是，从Pandas 1.3.0版本开始，`xlrd`已不再支持`.xlsx`文件，因此读取`.xlsx`文件时，默认引擎切换为`openpyxl`。如果尝试用过时的`xlrd`读取`.xlsx`文件，可能会引发错误。常见问题：为什么我的代码在读取`.xlsx`文件时提示“`xlrd`不支持此格式”？这是因为`xlrd`库仅支持旧版的`.xls`文件，而`.xlsx`文件需要使用`openpyxl`或`pyxlsb`等现代引擎。解决方法是确保安装了`openpyxl`，并明确指定引擎参数，例如`pd.read_excel('file.xlsx', engine='openpyxl')`。此外，读取大型Excel文件时，推荐指定`usecols`参数以优化性能和内存占用。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

fafa阿花 2025-06-09 02:30

关注

1. 问题概述

在使用Pandas库读取Excel文件时，开发者可能会遇到一个问题：尝试读取`.xlsx`文件时，系统提示“`xlrd`不支持此格式”。这种错误的根本原因在于`xlrd`引擎仅支持旧版的`.xls`文件，而从Pandas 1.3.0版本开始，`xlrd`已不再支持`.xlsx`文件。

Pandas的`read_excel`函数会根据文件扩展名自动选择默认引擎。当处理`.xls`文件时，默认使用`xlrd`；而对于`.xlsx`文件，则切换为`openpyxl`引擎。如果未正确指定引擎或依赖过时的库，就可能引发上述错误。

2. 技术分析

以下是可能导致该问题的常见场景和技术细节：

场景一： 使用了较新的Pandas版本（如1.3.0及以上），但代码中没有明确指定引擎参数。
场景二： 系统环境中安装了`xlrd`库，但未安装`openpyxl`库。
场景三： 在读取大型Excel文件时，未优化内存使用（例如未使用`usecols`参数）。

为了更好地理解问题，可以参考以下流程图：

graph TD; A[读取Excel文件] --> B{文件类型是.xlsx?}; B -- 是 --> C{是否安装openpyxl?}; B -- 否 --> D[使用xlrd引擎]; C -- 否 --> E[报错：xlrd不支持此格式]; C -- 是 --> F[成功读取];

3. 解决方案

针对上述问题，以下是具体的解决步骤：

确保安装了`openpyxl`库。可以通过运行以下命令安装：pip install openpyxl。
在调用`pd.read_excel`时，明确指定引擎参数为`openpyxl`，例如：pd.read_excel('file.xlsx', engine='openpyxl')。
对于大型Excel文件，建议使用`usecols`参数来限制读取的列数，从而优化性能和内存占用。例如：pd.read_excel('file.xlsx', usecols=['A', 'B'])。

以下是完整的代码示例：


import pandas as pd

# 明确指定引擎为openpyxl
df = pd.read_excel('example.xlsx', engine='openpyxl')

# 优化性能：仅读取特定列
df_optimized = pd.read_excel('large_file.xlsx', usecols=['Column1', 'Column2'], engine='openpyxl')

4. 进阶优化与注意事项

除了基本的解决方法，以下是一些进阶优化建议：

优化点	描述
分块读取	对于超大文件，可以结合`chunksize`参数分块读取数据，避免一次性加载过多数据到内存。
多线程处理	在多核CPU环境下，考虑使用多线程或多进程技术加速数据处理。
文件格式转换	如果频繁操作`.xlsx`文件，可以考虑将其转换为更高效的格式（如CSV或Parquet）以提升性能。

此外，还需注意不同引擎的兼容性问题。例如，某些特殊格式的Excel文件可能需要使用`pyxlsb`引擎进行读取。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

pandas 读取xlsx文件复制文件
2025-05-07 16:24

wearegogog123的博客 Pandas 提供了强大的功能来读取和处理 Excel 文件，通过结合使用read_excel和to_excel方法，可以轻松地对 Excel 文件进行读取、处理和复制。无论是处理单个工作表还是多个工作表，Pandas 都能高效地完成任务。
50_Pandas读取 Excel 文件 (xlsx, xls)
2022-05-19 16:16

饺子大人的博客 50_Pandas读取 Excel 文件 (xlsx, xls) 要使用 pandas 将 Excel 文件（扩展名：.xlsx、.xls）作为 pandas.DataFrame 读取，请使用 pandas.read_excel () 函数。这里，将描述以下内容。 openpyxl、xlrd的安装 ...
python 数据分析：pandas，可以读取 xls 但无法读取 xlsx 文件
2024-05-20 09:22

好开心啊没烦恼的博客解决Excel文件格式读取问题摘要：针对xlrd无法读取xlsx格式的问题，文章指出不同Excel文件格式需要对应模块：xlsx需openpyxl≥3.0.10，xls需xlrd 2.0.1，xlsb需pyxlsb。推荐通过pip install openpyxl xlrd==2.0.1 ...
Pandas读取xlsx数据（超详细）
2023-09-07 22:37

AI_dataloads的博客导入和处理数据是数据分析的重要一环。Pandas是一个强大且流行的Python库，用于数据处理和分析。在本篇博客中，我们将介绍如何使用Pandas库导入Excel表格，以及一些常用并且实用的操作技巧。
pandas读取csv文件时出现错误的解决方法你搞定了吗？
2025-12-11 09:36

对于pandas读取csv文件时出现的错误，我们通常需要根据错误提示进行定位和解决。由于错误的种类繁多，这里将介绍一些常见的错误及解决方案。首先，错误类型可能包含但不限于编码问题、分隔符错误、数据格式错误等...
python读取xlsx文件pandas_Python使用pandas读取xlsx文件,python
2020-11-25 16:10

weixin_39607710的博客 python使用pandas读xlsx文件读取前n行数据读取指定数据（指定行指定列）获取文件行号和列标题将数据转换为字典形式import pandas as pd#1.读取前n行所有数据df1=pd.read_excel('d1.xlsx')#读取xlsx中的第一个sheet...
使用pandas模块读取csv文件和excel表格,并用matplotlib画图的方法
2020-09-20 08:38

在处理数据分析和可视化的场景中，pandas库和matplotlib库是Python编程语言中最为常用的两个库，它们各自有着丰富的功能和强大的应用。本文将深入探讨如何利用pandas模块读取CSV文件和Excel表格，并使用matplotlib...
pandas无法读取和创建xlsx文件解决办法
2024-05-09 21:33

宇哥168的博客【代码】pandas无法读取和创建xlsx文件解决办法。
pandas读取xlsx文件使用sqlachemy写到数据库
2024-09-10 14:35

hzw0510的博客如果你使用的是特定的数据库（如 SQLite、PostgreSQL、MySQL），你还需要安装相应的数据库驱动。通过这些步骤，你可以方便地将 Excel ...（用于读取 Excel 文件）。方法将 DataFrame 数据写入数据库。读取 Excel 文件。
pandas读取xlsx文件报错：Excel xlsx file； not supported
2023-03-07 01:21

duangbuduang的博客在使用pandas读取xlsx文件时，报错：Excel xlsx file; not supported import pandas as pd df = pd.read_excel('../datas/1.xlsx') 报错： Output exceeds the size limit. Open the full output data in a text ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月9日