使用openpyxl进行Excel数据去重时，如何高效判断并删除重复行？

在使用 openpyxl 处理 Excel 数据时，如何高效判断并删除重复行？常见做法是先读取所有数据，利用 Python 的集合或字典结构记录已出现的行数据，逐行判断是否重复，并将不重复的行写入新工作表。但面对大型数据集时，这种方法可能效率低下。是否有更优策略实现高性能去重？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小丸子书单 2025-07-12 12:40
关注
一、理解 openpyxl 处理 Excel 数据时的去重机制

在使用 openpyxl 操作 Excel 文件时，开发者通常会面临一个常见问题：如何高效地判断并删除重复行。传统做法是将整个工作表读入内存，然后通过 Python 的集合（set）或字典结构记录已出现的数据行，逐行比对以识别重复项。

读取整个工作表数据至列表中
遍历每一行数据，将其转换为可哈希的元组形式
使用集合记录已出现过的行
仅将未出现过的行写入新的工作表

from openpyxl import load_workbook, Workbook def remove_duplicates(input_file, output_file): seen = set() wb = load_workbook(input_file) ws = wb.active new_wb = Workbook() new_ws = new_wb.active for row in ws.iter_rows(values_only=True): row_tuple = tuple(row) if row_tuple not in seen: seen.add(row_tuple) new_ws.append(row) new_wb.save(output_file)

这种方法适用于小规模数据集，但在处理大型 Excel 文件时，存在明显的性能瓶颈，例如内存占用高、执行效率低等问题。

二、从性能角度分析常见方法的局限性

上述方法的主要问题是将全部数据加载到内存中进行处理。当数据量较大时，这不仅消耗大量内存资源，还可能导致程序响应变慢甚至崩溃。

数据量级别内存占用估算处理时间趋势
< 1万行较低快速
1-10万行中等较慢
> 10万行高显著延迟

此外，使用 iter_rows(values_only=True) 方法虽然避免了单元格对象的创建，但仍需将整行数据转换为元组用于哈希判断，这在大数据场景下依然不够高效。

三、优化策略：结合分块读取与增量处理

为了提升性能，可以采用“分块读取 + 增量写入”的方式。具体而言：

使用 openpyxl 的 read_only 模式打开文件，降低内存开销
按行读取，逐条处理并立即写入新文件
利用数据库或临时磁盘缓存来存储已出现的行（如 SQLite）

from openpyxl import load_workbook import sqlite3 def remove_duplicates_large(input_file, output_file): conn = sqlite3.connect(':memory:') c = conn.cursor() c.execute('CREATE TABLE seen (row TEXT PRIMARY KEY)') wb = load_workbook(input_file, read_only=True) ws = wb.active new_wb = Workbook() new_ws = new_wb.active for row in ws.iter_rows(values_only=True): row_str = str(row) try: c.execute('INSERT INTO seen (row) VALUES (?)', (row_str,)) new_ws.append(row) except sqlite3.IntegrityError: pass # 跳过重复行 new_wb.save(output_file) conn.close()

此方案通过引入轻量级数据库来维护已处理的行，避免了内存中保存所有数据的需求，从而支持更大规模的 Excel 文件处理。

四、更进一步：借助 Pandas 提升性能与灵活性

对于需要更高性能和更多功能的项目，推荐使用 pandas 库结合 openpyxl 引擎进行处理。

import pandas as pd def remove_duplicates_pandas(input_file, output_file): df = pd.read_excel(input_file, engine='openpyxl') df.drop_duplicates(inplace=True) df.to_excel(output_file, index=False)

Pandas 内部使用 NumPy 数组进行向量化操作，相比原生的 Python 集合结构，在数据去重方面具有更高的执行效率。同时，它还支持多列组合去重、保留首次/末次出现等多种高级选项。

五、流程图展示不同方案的处理逻辑

graph TD A[开始] --> B{数据量大小} B -- 小规模 --> C[全量读取 + 集合判重] B -- 大规模 --> D[只读模式 + 分块处理] D --> E[使用 SQLite 缓存已处理行] D --> F[使用 Pandas 向量化处理] C --> G[写入新文件] E --> G F --> G G --> H[结束]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

数据量级别	内存占用估算	处理时间趋势
< 1万行	较低	快速
1-10万行	中等	较慢
> 10万行	高	显著延迟

报告相同问题？

关注问题

使用 Python 高效删除 Excel 重复数据（Excel 去重方法详解）
2025-12-15 16:03

SunnyDays1011的博客本文详细讲解了使用Python高效删除Excel重复数据的三种方式：1)删除整个工作表的重复数据；2)删除指定区域的重复数据；3)按特定列删除重复数据，并提供了对应的代码示例。同时给出了方法选择建议和操作注意事项。
使用Python操作Excel，删重复数据及keep参数用法并保存的例子
2023-10-19 15:36

白帽黑客艾登的博客解析：我们使用了pandas库读取Excel文件，并使用drop_duplicates()函数删除重复数据。其中，subset参数指定了删除重复数据的列（列名），keep参数指定了保留哪个重复记录（默认为第一个记录）。inplace=True参数表示...
使用openpyxl读取Excel文件并进行取值计算操作
2023-12-03 18:50

是靖不是静的博客本文仅仅简单介绍了openpyxl模块和处理 excel 文件的一些基本操作，还说了一下用字典去存储数据的方式，以及处理excel数据进行计算的内容。
python实现查找excel里某一列重复数据并且剔除后打印的方法
2020-12-24 03:01

在Python编程语言中，处理Excel文件是常见的任务，特别是在数据分析和数据处理领域。本文将介绍如何使用`xlrd`库来查找并剔除Excel文件中某一列的重复数据，并将其打印出来。`xlrd`是一个专门用于读取Excel文件的...
使用pandas和openpyxl库进行Excel数据处理的Python自动化工具-数据清洗与转换-Excel文件读写与操作-数据分析与可视化-自动化报表生成-批量数据处理-数据合.zip
2025-12-27 04:48

用户可以编写脚本实现自动读取Excel文件数据，使用pandas进行数据清洗和转换，然后再利用openpyxl将处理后的数据写回到新的Excel文件中。这样不仅提高了数据处理的效率，也使得数据处理过程更加规范和一致。自动化...
openpyxl批量删除表格中的空白行，并处理数据样式
2022-06-19 15:00

进击的小阿万的博客 openpyxl批量删除表格中的空白行，并处理数据样式
含代码基于python的excel合并、数据清洗工具2.0
2024-10-28 09:09

为了提高工作效率，减少重复性劳动，一款能够自动合并Excel表格并进行数据清洗的工具显得尤为重要。传统的Excel合并往往需要手动打开每个表格，复制数据到一个新的工作簿中，然后再进行格式调整和数据整理，这一...
Python批量处理Excel脚本使用指南
2025-12-30 11:15

在实际操作过程中，用户可以通过简单的命令或配置文件指定需要去重的列，脚本将会根据这些指令自动进行重复数据的检测与删除，从而确保数据的唯一性和准确性。其次，合并脚本提供了批量合并多个具有相同结构的...
Python实现将多个Excel表格数据一键合并到一个表格，轻松提升办公效率！_paython将多个excel列去重汇总到一起(1)
2024-05-06 00:10

起飞程序员的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
告别openpyxl！用影刀RPA指令批量处理Excel数据的5个高阶技巧
2025-09-21 07:17

烧烤摊在逃五花肉的博客本文介绍了使用影刀RPA指令批量处理Excel数据的五个高阶技巧，旨在替代传统的openpyxl编程方式。通过智能创建多Sheet页、自适应调整列宽、批量填充公式、设置单元格样式以及联动外部数据源并处理错误，帮助用户构建...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月12日

使用openpyxl进行Excel数据去重时，如何高效判断并删除重复行？

1条回答 默认 最新

一、理解 openpyxl 处理 Excel 数据时的去重机制

二、从性能角度分析常见方法的局限性

三、优化策略：结合分块读取与增量处理

四、更进一步：借助 Pandas 提升性能与灵活性

五、流程图展示不同方案的处理逻辑

问题事件

1条回答默认最新