pandas 中的 isin方法查找重复值遗漏数据问题

问个问题,各位小伙伴:

# 查找某个字段是否重复 '单号',删除所有重复的行,一个不留,形成 df2表,原来df1和df2做差吧(广义上的),单拉出一张表 df3,发现行数df3+df2<df1?
import pandas as pd

df1 = pd.read_pickle(r'E:\data.pickle')

df2 = df1.drop_duplicates(subset='单号', keep=False)

df2_list = df2.index.tolist()  # 列表,索引依据

df3 = df1[~df1.index.isin(df2_list)]  # 广义做差

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-09-08 08:41
关注
【以下回答由 GPT 生成】

以下是使用pandas的isin方法来查找重复行并删除遗漏数据的具体步骤：

首先，我们需要加载pandas库，并读取数据文件。

import pandas as pd # 读取数据 df1 = pd.read_pickle('E:\data.pickle')

接下来，我们可以使用isin方法查找重复行。我们将根据特定列（这里是'单号'列）的值是否在其他行中，来判断是否是重复行。

# 使用isin方法查找重复值并删除所有重复的行，形成df2表 df2 = df1[df1.duplicated(subset='单号', keep=False)]

请注意，我们使用了df1.duplicated()方法来查找重复行，然后配合isin方法，仅保留重复行。

接下来，我们需要将df2的索引转换为列表。这可以通过使用index.tolist()方法来实现。

# 将df2的索引转换为列表 df2_list = df2.index.tolist()

最后，我们可以对df1进行广义做差，得到需要删除的遗漏数据。我们使用~df1.index.isin(df2_list)来检查索引是否在df2_list中，然后使用这个布尔条件来选择需要删除的数据。

# 对df1进行广义做差，得到df3表 df3 = df1[~df1.index.isin(df2_list)]

这样，我们就使用pandas的isin方法完成了查找重复行并删除遗漏数据的步骤。如果代码中出现错误，可能是数据类型不匹配导致的，或者数据文件路径不正确，请确保这些细节正确。如果还有其他问题，请告诉我。

【相关推荐】

关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：【Python】详解pandas的isin索引和~反向索引
除此之外, 这篇博客: pandas中isin()函数及其逆函数使用中的 布尔索引 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

一点思考：在 Python 数据科学和机器学习研究背景下，代码审查（Code Review, CR）的必要性
2024-09-07 12:31

叶庭云的博客一点思考：在 Python 数据科学和机器学习研究背景下，代码审查（Code Review, CR）的必要性
DeepSeek+Cline：开启自动化编程新纪元
2025-04-25 15:48

奔跑吧邓邓子的博客随着 AI 技术不断进步...本文详细阐述二者安装配置、实战操作流程，涵盖从基础代码生成到复杂项目开发的应用技巧，同时解答常见问题，帮助开发者快速掌握这对 “智能搭档”，提升编程效率，解锁自动化编程的无限可能。
coze-loop作品集：包含20+种编程语言、50+种常见循环模式的优化样本库
2026-01-14 09:58

AAAsuan的博客本文介绍了如何在星图GPU平台上自动化部署coze-loop - AI 代码循环优化器镜像，高效实现编程...该镜像支持20+语言、50+循环模式，典型应用于代码审查中的循环性能瓶颈识别与可读性优化，显著提升开发效率与代码质量。
数据科学赛道夺冠关键：Python+Pandas+机器学习模型调优实战
2025-10-02 10:01

GatherLume的博客掌握数据科学赛道夺冠关键，从Python+Pandas到机器学习模型调优全覆盖。本篇作为「编程挑战赛备战指南:各赛道技术栈与获奖技巧解析」核心章节，详解特征工程、交叉验证与模型融合等实战技巧，提升算法效率与得分稳定...
数据挖掘课程实验 1：数据预处理
2024-04-07 12:02

Conn_w的博客通过本次数据挖掘的预处理实验，了解了数据预处理的方法和主要步骤，依靠在教材的基础上查询网上的资料，学习了相关数据预处理的算法过程，并完成了对数据预处理方法的具体案例实现，基本掌握了数据预处理的主要过程...
基于LLM的数据质量错误检测
2024-03-24 17:31

lichunericli的博客基于LLM的数据质量错误检测
Python编程：从入门到实践
2025-07-17 22:40

YC运维的博客《Python编程入门笔记》摘要本文是基于《Python编程：从入门到实践》的学习笔记，主要涵盖Python基础知识和核心概念。首先介绍了Python的特点：可读性强、解释型语言、动态类型、面向对象和跨平台性。重点讲解了...
Dify隐藏功能曝光：如何批量提取多个Excel文件中的指定数据？
2026-01-05 16:02

InstrIsle的博客掌握Dify Excel数据提取技巧，轻松批量处理多个文件中的指定内容。适用于财务报表整合、数据清洗等场景，通过可视化工作流实现高效自动化，无需编程基础。操作简单、准确率高，大幅提升工作效率，值得收藏。
动手学数据分析：实战系列（第二天）
2025-12-18 09:17

升职佳兴的博客本文介绍了pandas数据分析的基础操作，重点讲解了DataFrame和Series两种核心数据结构的使用方法。主要内容包括：1) 通过字典创建Series和DataFrame的示例；2) 加载csv文件并查看列名；3) 两种访问列数据的方法比较...
AutoGPT直播数据分析工具
2025-12-15 01:22

金尼玛哈的博客本文介绍如何基于AutoGPT架构构建自主智能代理，实现直播数据的自动采集、分析与报告生成。通过任务分解、工具调用和动态反馈，AI可快速识别互动高峰与转化瓶颈，提升运营效率。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月7日

pandas 中的 isin方法查找重复值遗漏数据问题

问个问题,各位小伙伴:

2条回答 默认 最新

问题事件

2条回答默认最新