earthpassenger 2022-07-28 18:07 采纳率: 100%

已结题

Python panda对比表格数据

我需要对比两个相似性很大的表格
结构性区别和内容性区别
新表格可能会莫名其妙多一行，可能会少一行，内容可能发生异常。

我借用网站其他人的解决思路(暂时没有link，如果谁看到了的dm我，我将会把来源附上)

本人没有cs背景，都是自己摸索找资源的。
先提前感谢大家了/(ㄒoㄒ)/~~

目前结构性区别有output已经ok并成功写入新文件新的sheet
问题主要出现在把结构性差异排除后，对剩余的数据对比，看是否有内容性的差异

相关代码如下：
import numpy as np
import pandas as pd
old=pd.read_excel(io=r'sample_old.xlsx',sheet_name='sheet1', na_values=['NA'])
new=pd.read_excel(io=r'Csample_nouveau.xlsx', sheet_name='sheet1', na_values=['NA'])
old['version'] = "old"
new['version'] = "new"

old_comptetotal=set(old['N_Compte'])
new_comptetotal=set(new['N_Compte'])
suppr_compte=old_comptetotal-new_comptetotal
ajoute_compte=new_comptetotal-old_comptetotal
print(suppr_compte)
print(ajoute_compte)

all_data=pd.concat([old,new],ignore_index=True)
changes=all_data.drop_duplicates(subset=old.columns,keep='last')
print(changes)

cpt_double=changes[changes['N_Compte'].duplicated()==True]['N_Compte'].tolist()
print(cpt_double)
double=changes[changes['N_Compte'].isin(cpt_double)]
print(double)

change_new=double[(double["version"]=="new")]
change_old=double[(double["version"]=="old")]
print(change_new)
print(change_old)

change_new=change_new.drop(["version"],axis=1)
change_old=change_old.drop(["version"],axis=1)
print(change_new)
print(change_old)

df_all_changes=pd.concat([change_new,change_old],axis='columns',keys=['old','new'],join='outer')
df_all_changes=df_all_changes.swaplevel(axis='columns')[change_new.columns[0:]]
print(df_all_changes)

后面没有代码了，因为我解决不了了

问题
最后print出来发现old和new没有区别的行也被print了，我想去除没有差异的那一行。
如图我highlight部分，每一列名称下的old new都是没有差异的

但是我不可能单独drop那一行，这是个样本表格，真实表格很多数据，有差异的概率比较小，因此写入新excel应该是有差异的那几行以便于更改。

**我的解答思路和尝试过的方法 **

我尝试highlight diff，然后条件筛出有颜色的那一行，但是本人python知识浅薄，highlight出了difference但是那一行还在/(ㄒoㄒ)/~~。

我想要达到的结果
有没有highlight不重要，我只要内容有差异的行，且格式是每个列名下有old 和new对比。这样一眼看的出差异

如图是我想要被写入的样子

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

herosunly 优质创作者: python技术领域 2022-07-28 19:27

关注

根据上面注解想表达的是N_compte相同，假设是这个前提的话，第一步构建数据(这一步是为了用来测试，可忽略)：

import pandas as pd

columns = ['N_Compte', 'Nom', 'Adresse', 'Ville', 'Code_postal']

df1 = pd.DataFrame(columns=columns)
df1.loc[len(df1)] = ['1', 'A', '1RUE', 'PARIS', 75001]
df1.loc[len(df1)] = ['2', 'B', '2RUE', 'LYON8', 69008]
df1.loc[len(df1)] = ['3', 'C', '13RUE', 'REIMS', 51100]
df1.loc[len(df1)] = ['4', 'D', '4RUE', 'NICE', 6000]

df2 = pd.DataFrame(columns=columns)
df2.loc[len(df2)] = ['1', 'A', '11rue', 'PARIS', 75001]
df2.loc[len(df2)] = ['2', 'B', '12rue', 'NICE', 6000]
df2.loc[len(df2)] = ['3', 'C', '13RUE', 'REIMS', 51100]
df2.loc[len(df2)] = ['5', 'E', '5rue', 'LITTE', 36788]

第二步得到结果，如果列名的顺序想要修改，直接改第二行代码即可，如下所示：

duplicated_rows = pd.concat([df1,df2]).duplicated().sum()
effective_row = len(df1)- duplicated_rows
new_df1 = pd.concat([df1,df2]).drop_duplicates(keep=False).reset_index(drop=True).iloc[: effective_row, :]

result_df = pd.merge(new_df1, df2, 'inner', on='N_Compte', suffixes=('_old', '_new')).sort_index(axis=1)
result_df = result_df.reindex(columns=['N_Compte', 'Nom_old', 'Nom_new', 'Adresse_old', 'Adresse_new', 'Ville_old', 'Ville_new', 'Code_postal_old', 'Code_postal_new'])

打印result_df结果如下：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

6、Python：强大且多面的编程语言
2025-07-16 03:58

xray4的博客 Python 是一种功能强大且多面的编程语言，广泛应用于游戏开发、数据分析、机器学习、人工智能、Web开发等多个领域。它具有易学易用、可移植性强、支持多种编程范式等技术优势，并且拥有活跃的开源社区支持。本文详细...
6、Python：强大的通用编程语言
2025-07-16 04:02

代码小丑695的博客涵盖了Python在游戏编程、数据挖掘、图像处理等众多领域的广泛应用，分析了其技术优势，如面向对象与函数式编程、免费开源、可移植性、强大的功能支持以及易用性和易学习性。同时比较了Python与其他编程语言的区别，...
python panda是什么_python pandas浅析
2020-12-06 04:22

weixin_39600616的博客之前一直想自学一下大数据，正好七月在线在做1元优惠购活动，所以机缘巧合...Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数...
[数据分析实战]对比用Excel和Python用来做数据分析的优缺点，用Python的Pandas操作Excel数据表格原来如此简单？还不赶紧学起来？
2023-05-24 10:18

布丁_码到成功的博客老话说知己知彼才能百战不怠，我们先把两者的优缺点分析好，就会知道什么场景下该用Excel，什么场景下该用Python，如果不想看的小伙伴可以直接跳转到操作部分。
Python库 | panda-client-1.4.89.tar.gz
2022-03-07 03:26

《Python库：panda-client-1.4.89.tar.gz——高效数据分析与处理的得力助手》在Python的世界里，有一款名为Pandas的库，它为数据处理提供了强大的工具，使得开发者能够轻松地进行数据清洗、分析和操作。而我们今天...
Python库 | sql_panda_wrapper-0.1.3.tar.gz
2022-03-10 19:19

在Python编程领域，数据处理是一项至关重要的任务，尤其是在数据分析、数据科学以及数据库管理等应用场景中。sql_panda_wrapper是一个Python库，它为用户提供了将SQL查询与Pandas数据框架相结合的便利工具。这个库的...
python导入panda
2024-07-05 03:44

我也刚到家的博客 Python相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shelPython中Pandas库的使用在Python中，数据处理是一个非常重要...
Python使用Pandas对csv文件进行数据处理的方法
2020-09-18 22:35

Python是一种广泛使用的高级编程语言，以其简洁明了的语法和强大的功能库闻名。Pandas则是Python中一个强大的数据分析和处理库，它提供了快速、灵活且表达式丰富的数据结构，目的是使“关系”或“标签”数据的使用既...
Python数据处理| Pandas知识大全！
2025-01-10 17:02

Python_trys的博客 Pandas是专门做数据处理和分析的，拥有许多各种复杂的函数。Pandas功能强大，支持类似于SQL的数据处理。Pandas的底层依赖于Numpy，是在Numpy的基础上发展而来。导入数据库：import pandas as pd。
Python数据分析必学的8个核心库
2025-03-17 16:00

程序员CC_的博客 Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金10元 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月28日

Python panda对比表格数据

2条回答 默认 最新

问题事件

2条回答默认最新