earthpassenger 2022-07-28 18:07 采纳率: 100%

已结题

Python panda对比表格数据

我需要对比两个相似性很大的表格
结构性区别和内容性区别
新表格可能会莫名其妙多一行，可能会少一行，内容可能发生异常。

我借用网站其他人的解决思路(暂时没有link，如果谁看到了的dm我，我将会把来源附上)

本人没有cs背景，都是自己摸索找资源的。
先提前感谢大家了/(ㄒoㄒ)/~~

目前结构性区别有output已经ok并成功写入新文件新的sheet
问题主要出现在把结构性差异排除后，对剩余的数据对比，看是否有内容性的差异

相关代码如下：
import numpy as np
import pandas as pd
old=pd.read_excel(io=r'sample_old.xlsx',sheet_name='sheet1', na_values=['NA'])
new=pd.read_excel(io=r'Csample_nouveau.xlsx', sheet_name='sheet1', na_values=['NA'])
old['version'] = "old"
new['version'] = "new"

old_comptetotal=set(old['N_Compte'])
new_comptetotal=set(new['N_Compte'])
suppr_compte=old_comptetotal-new_comptetotal
ajoute_compte=new_comptetotal-old_comptetotal
print(suppr_compte)
print(ajoute_compte)

all_data=pd.concat([old,new],ignore_index=True)
changes=all_data.drop_duplicates(subset=old.columns,keep='last')
print(changes)

cpt_double=changes[changes['N_Compte'].duplicated()==True]['N_Compte'].tolist()
print(cpt_double)
double=changes[changes['N_Compte'].isin(cpt_double)]
print(double)

change_new=double[(double["version"]=="new")]
change_old=double[(double["version"]=="old")]
print(change_new)
print(change_old)

change_new=change_new.drop(["version"],axis=1)
change_old=change_old.drop(["version"],axis=1)
print(change_new)
print(change_old)

df_all_changes=pd.concat([change_new,change_old],axis='columns',keys=['old','new'],join='outer')
df_all_changes=df_all_changes.swaplevel(axis='columns')[change_new.columns[0:]]
print(df_all_changes)

后面没有代码了，因为我解决不了了

问题
最后print出来发现old和new没有区别的行也被print了，我想去除没有差异的那一行。
如图我highlight部分，每一列名称下的old new都是没有差异的

但是我不可能单独drop那一行，这是个样本表格，真实表格很多数据，有差异的概率比较小，因此写入新excel应该是有差异的那几行以便于更改。

**我的解答思路和尝试过的方法 **

我尝试highlight diff，然后条件筛出有颜色的那一行，但是本人python知识浅薄，highlight出了difference但是那一行还在/(ㄒoㄒ)/~~。

我想要达到的结果
有没有highlight不重要，我只要内容有差异的行，且格式是每个列名下有old 和new对比。这样一眼看的出差异

如图是我想要被写入的样子

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

herosunly Python领域优质创作者 2022-07-28 19:27

关注

根据上面注解想表达的是N_compte相同，假设是这个前提的话，第一步构建数据(这一步是为了用来测试，可忽略)：

import pandas as pd

columns = ['N_Compte', 'Nom', 'Adresse', 'Ville', 'Code_postal']

df1 = pd.DataFrame(columns=columns)
df1.loc[len(df1)] = ['1', 'A', '1RUE', 'PARIS', 75001]
df1.loc[len(df1)] = ['2', 'B', '2RUE', 'LYON8', 69008]
df1.loc[len(df1)] = ['3', 'C', '13RUE', 'REIMS', 51100]
df1.loc[len(df1)] = ['4', 'D', '4RUE', 'NICE', 6000]

df2 = pd.DataFrame(columns=columns)
df2.loc[len(df2)] = ['1', 'A', '11rue', 'PARIS', 75001]
df2.loc[len(df2)] = ['2', 'B', '12rue', 'NICE', 6000]
df2.loc[len(df2)] = ['3', 'C', '13RUE', 'REIMS', 51100]
df2.loc[len(df2)] = ['5', 'E', '5rue', 'LITTE', 36788]

第二步得到结果，如果列名的顺序想要修改，直接改第二行代码即可，如下所示：

duplicated_rows = pd.concat([df1,df2]).duplicated().sum()
effective_row = len(df1)- duplicated_rows
new_df1 = pd.concat([df1,df2]).drop_duplicates(keep=False).reset_index(drop=True).iloc[: effective_row, :]

result_df = pd.merge(new_df1, df2, 'inner', on='N_Compte', suffixes=('_old', '_new')).sort_index(axis=1)
result_df = result_df.reindex(columns=['N_Compte', 'Nom_old', 'Nom_new', 'Adresse_old', 'Adresse_new', 'Ville_old', 'Ville_new', 'Code_postal_old', 'Code_postal_new'])

打印result_df结果如下：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

Python panda对比表格数据 python
2022-07-28 18:07

回答 2 已采纳根据上面注解想表达的是N_compte相同，假设是这个前提的话，第一步构建数据(这一步是为了用来测试，可忽略)： import pandas as pd columns = ['N_Compte',
Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
python编程数据分析 python
2022-05-26 00:03

回答 1 已采纳 d = {} dial_clean='15 年已经成为中国全力推进一带一路构想的新起点亚欧互联互通的政策沟通设施联通贸易畅通资金融通民心相通五大领域
python panda是什么_python pandas浅析
2020-12-06 04:22

weixin_39600616的博客之前一直想自学一下大数据，正好七月在线在做1元优惠购活动，所以机缘巧合...Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数...
【Python】如何使用Python对比两个Excel乱序名单，查看是否缺少人名？ python 开发语言数据分析
2022-03-01 11:46

回答 5 已采纳 import pandas as pd #导入EXCEL文件 #在需要匹配的表格中增加一列匹配字段 excel_one = pd.read_excel(r'C:/Users/Admin/Deskto
python panda 如何生成汇总表？ python
2022-03-21 15:19

回答 1 已采纳只对这个数据，还是要通用？如果通用的话，出现这种日期， 20220325 20220301 ，如何处理？我加了部分数据，为了测试效果 import pandas as pd data_
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
[数据分析实战]对比用Excel和Python用来做数据分析的优缺点，用Python的Pandas操作Excel数据表格原来如此简单？还不赶紧学起来？
2023-05-24 10:18

布丁_码到成功的博客老话说知己知彼才能百战不怠，我们先把两者的优缺点分析好，就会知道什么场景下该用Excel，什么场景下该用Python，如果不想看的小伙伴可以直接跳转到操作部分。
python 如何根据csv表格筛选数据？ python
2022-04-03 03:07

回答 5 已采纳 res = [] with open("aa.csv",'rt') as r: for line in r: line=line.strip()
Python怎么实现拆分表格中的数据 python
2022-06-29 01:17

回答 2 已采纳 import xlrd import xlwt def readFromExcelByXlrd(filename, toSaveFilename, sheetName='Sheet1'):
用Python进行Excel表格数据的可视化处理 python
2022-04-08 21:49

回答 1 已采纳用pandas处理，按居住国分组，再累加财富就可以了
开启全民编程时代！Python小学生都要学的编程语言！
2019-02-14 22:42

逻辑教育_Hank的博客 Python近些年随着大数据，云计算、AI等领域的大规模应用，稳步的在编程语言排行榜上逐步上升，业内也把Python提到了一个相当高的地位。可是Python并不是大家想象中的一个新兴的计算机编程语言，它其实在1989年就被...
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
为什么Python对于数据分析至关重要
2020-08-19 16:45

leike_xiaolei的博客 Python创建者将Python语言定义为“一种解释的、面向对象的、具有动态语义的高级编程语言”。它的高级内置数据结构，结合了动态类型和动态绑定，使其对于快速应用程序开发，以及用作连接现有组件的脚本或胶合语言。 ...
Python与数据分析库Pandas与SQL
2023-07-25 12:25

心梓知识的博客在数据科学中，Python是最受欢迎的编程语言之一，这是由于其易于学习的语法和强大的生态系统。Python的库和框架数量众多，使得数据科学家可以快速、高效地完成各种任务，例如数据收集、数据清洗、数据处理和可视化。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金10元 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月28日

悬赏问题

¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：

Python panda对比表格数据

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新