关于#python#的问题：医疗数据匹配问题从表A中找到与表B诊断时间最接近的日期的体征，同一列为病人ID

我有两张表格A和B，它们分别包含病人体征和诊断记录。我需要找到表A中与表B中每个诊断时间最接近的体征，并将它们结合到一起。同时，它们都有一个共同的病人ID列。请问，在Python中该如何实现这个功能？是否有一些优化的解决方案呢？非常感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-05-27 16:46

关注

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7607981
除此之外, 这篇博客: Python汇总学习篇中的 39.10将数据第1列都加上10，第2列乘以2倍，通过索引获取列的值和更改列的值，显示b列值大于11的值，修改a列和b列值 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

import pandas as pd

df = pd.read_excel("234.xlsx",sheet_name=2)
print(df)
"""
#输出:
   a   b
0  1  10
1  2  20
"""
"a":lambda x:x.strip(), #去除列名a左右的空格

#将数据第1列都加上10，第2列乘以2倍
df = pd.read_excel("234.xlsx",sheet_name=2,
                   converters={
                       "a":lambda x:x+10, #a列加10
                       "b":lambda x:x*2,  #b列乘以2倍
                   })
print(df)
"""
#输出:
    a   b
0  11  20
1  12  40
"""

import pandas as pd

#通过索引获取列的值和更改列的值
#还可以写成:df[(df["b"]>2) & (df["b"]<6)] 且关系
#还可以写成:df[(df["b"]==2) | (df["b"]==8)] 或关系
#还可以写成:df[~(df["b"]==2)] 不等于关系
df = pd.read_excel("234.xlsx",sheet_name=2)
print(df)
"""
#输出:
   a   b
0  1  10
1  2  20
"""
#判断b列值是否大于11
print(df["b"]>11)
"""
#输出:
0    False
1     True
Name: b, dtype: bool
"""
#显示b列值大于11的值
print(df[df["b"]>11])
"""
#输出:
   a   b
1  2  20
"""
#只显示b列的数值
print(df[["b"]])
"""
#输出:
   b
0  10
1  20
"""
#只显示第1行，也就是True的那一行，这种带True,False的取值方式叫掩码取值
print(df[[True,False]])
"""
#输出:
   a   b
0  1  10
"""
#获取b列的数值，将b列值更改为101，201
df["b"] = [101,201]
print(df)
"""
#输出:
   a    b
0  1  101
1  2  201
"""
#修改a列和b列值
df[["a","b"]] = [[101,201],[202,203]]
print(df)
"""
#输出:
    a    b
0  101  201
1  202  203
"""

以下回答由chatgpt基于相关博客总结生成:
针对医疗数据匹配问题，可以通过以下步骤解决：
1. 首先，读取表A和表B的数据，并将表A按照病人ID进行分组，将每个分组内的数据按照时间排序。
2. 接着，遍历表B的数据，对于每一条数据，在表A中找到其病人ID对应的分组，并进行二分查找（或者其他高效搜索算法），找到表A中最靠近当前行数据时间的体征。
3. 将表B中的数据和找到的表A中的体征进行结合。
具体实现代码如下：
```
import pandas as pd
import datetime

# 读取表A和表B的数据
df_a = pd.read_csv('table_a.csv')
df_b = pd.read_csv('table_b.csv')

# 将表A按照病人ID进行分组，将每个分组内的数据按照时间排序
df_a['time'] = pd.to_datetime(df_a['time'])
df_a_grouped = df_a.sort_values(by=['time']).groupby(['patient_id'])

# 遍历表B的数据
for index, row in df_b.iterrows():
    # 在表A中找到其病人ID对应的分组，并进行二分查找，找到表A中最靠近当前行数据时间的体征
    df_a_current = df_a_grouped.get_group(row['patient_id'])
    df_a_closest = df_a_current.iloc[(df_a_current['time']-datetime.datetime.strptime(row['diagnosis_time'], '%Y-%m-%d %H:%M:%S')).abs().argsort()[0]]

    # 将表B中的数据和找到的表A中的体征进行结合
    df_b.loc[index, 'closest_feature_value'] = df_a_closest['feature_value']

# 输出处理后的表B
print(df_b)
```
为了让chatgpt更好地理解问题，可以在提问时使用更加具体的术语和描述，比如：

我有两张表格A和B，它们分别包含病人体征和诊断记录。我需要找到表A中与表B中每个诊断时间最接近的体征，并将它们结合到一起。同时，它们都有一个共同的病人ID列。请问，在Python中该如何实现这个功能？是否有一些优化的解决方案呢？非常感谢！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

关于#python#的问题：重装Numpy也不行(开发工具-pycharm) pycharm python
2023-03-07 18:40

回答 3 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 请看👉 ：PyCharm安装numpy库时遇到的问题解决方法如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放
关于#python#的问题：代码出现statement expected, found Py:DEDENT的错误是什么原因 python
2023-02-13 21:42

回答 4 已采纳毫无疑问，你使用的IDE是PyCharm。你的代码没有问题，这个报错应该是IDE的版本问题。解决方法：打开pycharm.vmoptions或pycharm64.vmoptions配置文件，在文件末尾
关于#python#的问题：Internal Python error in the inspect module.(开发工具-jupyter) jupyter python 有问必答
2022-04-01 15:45

回答 2 已采纳这是因为使用的是tensorflow2.0以上版本，代码中的函数是1.0的版本,解决方案见如下链接：https://blog.csdn.net/qq_44836803/article/details/
LeetCode：203（Python）—— 移除链表元素（简单）
2022-11-25 11:36

娱乐不打烊丶的博客概述：给你一个链表的头节点 head 和一个整数 val ，请你删除链表中所有满足 Node.val == val 的节点，并返回新的头节点。
关于#python#的问题：输入一个正整数n，打印出相对应的数字图形输入格式 python 有问必答
2022-03-27 13:50

回答 2 已采纳 n = int(input(">>>")) for i in range(1, n + 1): print(f"{str(i)*i:>{n}}")
关于#python#的知识点：关于求得拟合曲线函数的斜率的问题 python 数据挖掘有问必答机器学习
2021-07-13 15:18

回答 1 已采纳 np.poly1d方法生成的多项式本身带有求导的方法deriv n = np.poly1d([2,3,5,7]) print(n.deriv()) print(n.deriv()(1))
关于#python#的问题：检查字符串“Life is short.I use python”中是否包含字符串“python”，若包含则替换为“python”后输出新字符串，否则输出原字符串 python
2021-10-05 17:33

回答 2 已采纳 a='Life is short.I use python' if 'python' in a: print(a.replace('python','java')) else: pri
Python数据可视化：科技图表绘制
2024-08-12 07:30

爱编程的喵喵的博客本文主要介绍了Python数据可视化：科技图表绘制，希望能对学习Python的同学们有所帮助。文章目录 1. 前言 2. 书籍推荐 2.1 内容简介 2.2 本书作者 2.3 本书目录 2.4 本书读者 3. 购买链接
关于#pycharm#的问题：无法将“pythonProject”项识别为 cmdlet、函数、脚本文件或可运行程序的名称 pycharm
2022-07-13 13:33

回答 2 已采纳出现这个问题，不是pycharm的问题，是python环境变量没有配置。在环境变量中，添加python 暗转路径，如下图，然后重启电脑。
关于#Python#模块#translate#问题，如何解决？ python
2022-08-20 20:14

回答 1 已采纳中文 zh 保加利亚 bg 或者 bg-BG (不知道的地区,可以自己去查) from translate import Translator print(Translator(from_
关于#c语言#的问题：从键盘上输入一批正整数（如果遇到负数重新输入，如果遇到0停止输入） c++
2022-04-19 11:59

回答 6 已采纳 #include <stdio.h>int main(){ int i=0, n, x=0, sum = 0, a[100]; printf("请输入一组数；"); s
Python数据挖掘与可视化
2023-10-24 08:00

herosunly的博客 Python数据挖掘：入门进阶与实用案例分析，本案例将主要结合自动售货机的实际情况，对销售的历史数据进行处理，利用pyecharts库、Matplotlib库进行可视化分析，并对未来4周商品的销售额进行预测，从而为企业制定...
pandas数据处理将超市销售excel文件分别存放在多个日期工作簿的不同类别工作表中 python 数据分析
2022-08-03 15:45

回答 4 已采纳您好我看您的结果离标准答案就差了排序所以我的想法是您应该缺少了对k的排序import pandas as pd def f(x): return x[-1] df=pd.read_exce
15.时间序列预测（LSTM模型）python代码实现
2019-05-08 17:10

时间序列预测是数据分析领域中的一个重要话题，特别是在诸如股票市场预测、销售趋势分析、天气预报等应用场景中。长短期记忆网络（LSTM）是深度学习中一种适用于处理序列数据的递归神经网络，特别适合时间序列预测。...
深入了解Python运算符和表达式：从基础到高级
2023-09-18 10:39

海拥✘的博客 Python运算符和表达式是编程中的核心概念，用于执行各种计算和操作。在本文中，我们将深入介绍Python运算符和表达式的各个方面，包括算术运算符、比较运算符、逻辑运算符、位运算符等，以帮助你更好地理解和应用它们...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月27日

悬赏问题

¥100 用数字代替ip主机号断与旋转链接号段
¥20 学校内手机热点不能使用
¥15 qwen模型微调训练时grad_norm为0.0或为nan
¥15 若依- Spring cloud-plus集成阿里云schedulerX再控制台应用管理找不到实例
¥15 用vs2022 fortran调试只无法查看数组的值，显示发生未指定的错误
¥15 gge梦幻西游的地图制作
¥15 对计算机的学习没有方向
¥15 用VBA抓取淘宝的发票号码和下载发票pdf遇到的问题
¥20 java excel导出有什么解决方案
¥15 关于#r语言#的问题：并不是原CSV文件中的数据

关于#python#的问题：医疗数据匹配问题从表A中找到与表B诊断时间最接近的日期的体征，同一列为病人ID

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新