pandas两个表的匹配

pandas 两个表列内容字符串包含关系的匹配如数据1

A列        B列
abc        第一
qwer       第二
ones       第三
hello      第四

数据2

C列          D列
  x       abcdef
  y       onesyyy
  z       hello_boy

通过数据1和数据2的匹配，得到数据3

C列        D列            新列
  x      abcdef           第一
  y      onesyyy          第三
  z      hello_boy        第四

请求C友解答，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-18 16:43
关注
引自免费微信小程序：皆我百晓生

为了解决这个问题，我们可以使用pandas库中的str.contains方法来检查一个DataFrame的某一列是否包含另一个DataFrame某列中的子串。具体步骤如下：

首先，导入必要的库并创建两个DataFrame，分别对应数据1和数据2。
然后，遍历数据2的每一行，检查D列中的每个元素是否包含在数据1的A列或B列中的任何一个元素。
如果找到匹配，将相应的值添加到新列中。
最后，输出结果。

以下是具体的Python代码实现：

import pandas as pd # 创建数据1的DataFrame df1 = pd.DataFrame({ 'A列': ['abc', 'qwer', 'ones', 'hello'], 'B列': ['第一', '第二', '第三', '第四'] }) # 创建数据2的DataFrame df2 = pd.DataFrame({ 'C列': ['x', 'y', 'z'], 'D列': ['abcdef', 'onesyyy', 'hello_boy'] }) # 创建一个新的列用于存储匹配结果 df2['新列'] = None # 遍历数据2的每一行 for index, row in df2.iterrows(): # 检查数据2的D列中的元素是否包含在数据1的A列中 if any(df1['A列'].str.contains(row['D列'])): # 获取匹配的行 match = df1[df1['A列'].str.contains(row['D列'])] df2.at[index, '新列'] = match.iloc[0]['B列'] # 如果没有在A列中找到，检查B列 elif any(df1['B列'].str.contains(row['D列'])): match = df1[df1['B列'].str.contains(row['D列'])] df2.at[index, '新列'] = match.iloc[0]['B列'] print(df2)

但是，上述代码存在一个问题：它试图直接在'B列'中查找'D列'中的子串，这可能会导致错误，因为'B列'中的值并不包含'D列'中的任何子串。正确的做法是反向查找，即在'D列'中查找'A列'和'B列'中的值。此外，为了提高效率，可以使用merge函数结合正则表达式来实现这一功能，代码如下：

# 使用正则表达式进行模糊匹配 df2['新列'] = df2['D列'].str.extract('({})'.format('|'.join(df1['A列'] + df1['B列'])), expand=False) # 使用merge函数进行合并 df_result = df2.merge(df1, left_on='新列', right_on='A列', how='left') # 选择需要的列 df_result = df_result[['C列', 'D列', 'B列']] df_result.rename(columns={'B列': '新列'}, inplace=True) # 处理未匹配的行 df_result['新列'].fillna('无匹配', inplace=True) print(df_result)

注意：上述代码中的df1['A列'] + df1['B列']将两个列表连接起来，然后使用正则表达式在数据2的D列中查找这些值。如果找到了匹配项，则将其对应的B列值放入新列中。如果未找到匹配项，则新列中的值将为NaN。最后，我们使用fillna函数将未匹配的行填充为“无匹配”。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用pandas模糊匹配两个DataFrame的两列，报错 python
2022-10-09 21:20

回答 2 已采纳看报错应该是正则使用不正确，re.search()的第一个参数应该是正则表达式的字符串，你这里是整数（字典的键）
pandas 两个Dataframe 如何合并 python 有问必答
2021-05-31 13:01

回答 4 已采纳要把两个拟合并的数据从ndarray转成dataframe,,df=pd.DataFrame(array)再合并。示例： import pandas as pd import numpy as
pandas如何换表头 python
2022-08-06 15:45

回答 1 已采纳在读的时候，加一个参数就可以了 df = pd.read_excel(file,header=2,names=fheader)
Pandas实现两个表格内容模糊匹配
2021-11-09 15:33

Dr.Petrichor的博客此方法是两个表构建某一相同字段，然后全连接，在做匹配结果筛选，此方法针对数据量不大的时候，逻辑比较简单，但是内存消耗较大 1. 导入库 import pandas as pd import numpy as np import re 2. 构建关键词 ...
pandas实现按条件连接两个dataframe,具体条件见内容 python 有问必答
2021-03-27 18:25

回答 3 已采纳试下这样看是否可以: 1 先用A字段将两个表合并 2 然后计算告警开始时间和停电时间的时间差 3 时间差字段根据你的条件筛选(可根据是否必须停电时间在告警开始时间后面进行筛选 , 如果不考虑
pandas 两个DataFrame 数据映射没用填充空值 python
2021-08-10 16:54

回答 1 已采纳 a.merge(b,how='left') # 默认填充就是空值 # a.merge(b,how='left').fillna(0)
pandas中先判断表头为空后自定义表头 python 有问必答
2021-09-04 21:43

回答 1 已采纳值错误：长度不匹配：期望轴有6个元素，新值有5个元素
【Python数据处理】两个excel表格数据匹配
2024-04-29 10:05

编程隐士的博客【代码】【Python数据处理】两个excel表格数据匹配。
使用Pandas将两个表格合并，根据同样日期年和月以及姓名。 python
2021-06-13 19:36

回答 2 已采纳 pd. merge(a,b,left_on=["日期","姓名"],right_on=["日期","姓名"])
pandas 正则匹配int类型的数字 python 正则表达式
2022-01-11 10:41

回答 1 已采纳 import pandas as pd frame = pd.DataFrame([ [19160394, 0.2513], ['&nbsp19140861', 0.1513],
Python的pandas可以做到数据匹配和替换吗 python
2021-12-01 20:51

回答 1 已采纳根据你的题目，在博客中有详细说明，请查看。https://blog.csdn.net/lanzhen001/article/details/121667590
Pandas 是一个功能强大的 Python 数据分析库
2024-05-10 22:37

Pandas 的核心数据结构包括 Series（一维数组）和 DataFrame（二维表格），这两个结构使得用户能够高效地处理结构化数据。Pandas 的强大之处在于它不仅提供了一系列高级数据处理功能，还具有出色的性能和易用性，使...
pandas中两个不同索引的Series相加问题？ python
2020-10-10 23:21

回答 1 已采纳 http://blog.sina.com.cn/s/blog_9afab73d0102xjvt.html
Python视频教程-从41个实用小项目掌握Python编程(附课程代码)
2023-09-12 16:55

- **PyQt5/PySide2**：比较这两个基于Qt的GUI库的特点，学习如何使用它们创建更复杂的应用程序。 #### 知识点2：高级GUI设计 - **事件驱动编程**：理解事件循环的概念，学习如何处理用户交互事件（如点击按钮）。 -...
Pandas数据分析120道训练题.pdf
2024-06-09 21:54

统计每种编程语言出现的次数** - **知识点解析**： - **值计数**: 使用`.value_counts()`方法统计每种值出现的次数。 - **分组操作**: 如果需要针对不同的分组进行计数，则可以先使用`groupby()`方法分组再计数...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月18日

悬赏问题

¥15 Opencv（C++）异常
¥15 VScode上配置C语言环境
¥15 汇编语言没有主程序吗？
¥15 这个函数为什么会爆内存
¥15 无法装系统，grub成了顽固拦路虎
¥15 springboot aop 应用启动异常
¥15 matlab有关债券凸性久期的代码
¥15 lvgl v8.2定时器提前到来
¥15 qtcp 发送数据时偶尔会遇到发送数据失败？用的MSVC编译器(标签-qt|关键词-tcp)
¥15 cam_lidar_calibration报错

pandas两个表的匹配

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新