基于强化学习的脓毒血症治疗推荐

我使用DQN强化学习模型来做脓毒症患者的治疗推荐，我使用下面的代码进行训练并使用matplotlib绘制损失变化曲线，按照预期的情况下，损失值应当随着epoch次数的增加而逐渐减少并逐渐趋于平稳，可事实却相反，损失值随着epoch增加确实在逐渐升高，我也尝试过调整学习率和一些超参数，可是经过多次尝试结果大致相同，我不知道是哪方面出问题了？应该怎么解决？还有一点，我总感觉我的train()函数是不是有问题，我没什么训练经验，但是几万个epoch十几分钟就训练完了？我的显卡很拉，感觉不正常

import torch
import random
import pandas as pd
from tqdm import  tqdm
import numpy as np

patients_features=["o:gender","o:Weight_kg","o:GCS","o:RR"
    ,"o:Glucose","o:Hb","o:WBC_count","o:Arterial_pH","o:paO2"
    ,"o:paCO2","o:Arterial_lactate","o:SOFA","o:SpO2"
    ,"o:age1","o:MeanBP","o:HR","o:SysBP","o:DiaBP"]

feature_num=len(patients_features)
action_num=25

class data_pool():
    def __init__(self):
        self.sasr=[]
    def __len__(self):
        return len(self.sasr)
    def __getitem__(self,i):
        return self.sasr[i]
    def sample(self,number):
        data=random.sample(self.sasr,number)
        state = torch.FloatTensor([i[0] for i in data]).reshape(-1, feature_num).to(device)
        action = torch.LongTensor([i[1] for i in data]).reshape(-1, 1).to(device)
        reward = torch.FloatTensor([i[2] for i in data]).reshape(-1, 1).to(device)
        next_state = torch.FloatTensor([i[3] for i in data]).reshape(-1, feature_num).to(device)
        over = torch.LongTensor([i[4] for i in data]).reshape(-1, 1).to(device)
        return state, action, reward, next_state,over

    def load_sasr(self,file_name):
        data=pd.read_csv(file_name)
        for index,row in tqdm(data.iterrows()):
            state=row[["s1_" + s for s in patients_features]].tolist()
            action=row['action']
            reward=row['reward']
            next_state=row[["s2_" + s for s in patients_features]].tolist()
            over=row['over']
            self.sasr.append([state,action,reward,next_state,over])


class Model(torch.nn.Module):

    def __init__(self):
        super().__init__()

        self.fc = torch.nn.Sequential(
            torch.nn.Linear(feature_num, 256),
            torch.nn.ReLU(),
            torch.nn.Linear(256, 256),
            torch.nn.ReLU(),
        )

        self.fc_action = torch.nn.Linear(256, action_num)
        self.fc_state = torch.nn.Linear(256, 1)

    def forward(self, state):
        state = self.fc(state)

        #评估state的价值
        value_state = self.fc_state(state)

        #每个state下每个action的价值
        value_action = self.fc_action(state)

        #综合以上两者计算最终的价值,action去均值是为了数值稳定
        return value_state + value_action - value_action.mean(dim=-1,
                                                              keepdim=True)

model = Model().to(device)
model_delay = Model().to(device)

#复制参数
model_delay.load_state_dict(model.state_dict())

#训练
def train(pool):
    model.train()
    optimizer = torch.optim.Adam(model.parameters(), lr=2e-4)
    scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10000, gamma=0.1)  # 设置学习率每10000步衰减0.1倍
    loss_fn = torch.nn.MSELoss()

    batch_size=32
    epoch_number=80000
    #共更新N轮数据

    loss_series=[]

    for epoch in tqdm(range(epoch_number)):
        loss_epoch=0

        #采样N条数据
        state, action, reward, next_state, over = pool.sample(batch_size)

        #计算value
        value = model(state).gather(dim=1, index=action)

        #对value进行限制
        Q_thresh=20
        lambda_value=0.01
        loss_value=lambda_value*torch.clamp(torch.abs(value)-Q_thresh,min=0)
        mean_value_loss=torch.mean(loss_value)

        #计算target
        with torch.no_grad():
            target = model_delay(next_state)
        target = target.max(dim=1)[0].reshape(-1, 1)
        target = target * 0.99 * (1 - over) + reward

        loss = loss_fn(value, target)+mean_value_loss
        loss_epoch=loss.item()
        loss.backward()
        optimizer.step()
        # scheduler.step()
        optimizer.zero_grad()

        if (epoch+1) % 1000==0:
            loss_series.append(loss_epoch)

        #复制参数
        if (epoch + 1) % 10 == 0:
            model_delay.load_state_dict(model.state_dict())

    import matplotlib.pyplot as plt
    plt.plot(range(1000,epoch_number+1,1000),loss_series)
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.title('Training Loss Over Time')
    plt.show()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师新星创作者: Java技术领域 2024-02-12 23:43
关注
参考通义千问和郭老师的小迷弟雅思莫了-编写提供，主要是为了帮助您快速解决问题，如下回答，您可以参考下，如有问题，评论区留言。
从您提供的代码片段来看，您正在使用DQN（Deep Q Network）强化学习模型对脓毒症治疗进行推荐。您遇到的问题是训练过程中损失函数值随着epoch增加而升高，而不是减少并趋于平稳。

有几个可能的原因：

目标网络更新频率：在DQN中，通常需要保持目标网络的参数相对稳定，以确保目标值的稳定性。您的代码中每10个epoch才更新一次目标网络参数，这可能导致目标值剧烈变化，进而影响训练过程。尝试更频繁地同步主网络和目标网络的参数，例如每固定步数或每隔一定时间间隔同步。

奖励设计：如果奖励函数设计不合理，可能会导致损失函数无法有效收敛。请检查您的奖励函数是否能够正确反映治疗效果的好坏，并且对于改善状态的动作应给予正向奖励，对于恶化状态的动作给予负向奖励。

探索与利用的平衡：虽然代码片段没有体现epsilon-greedy策略或者其它探索策略，但在实际DQN训练中，一个合适的探索策略也是至关重要的。过高的探索率可能会导致agent随机选择动作，从而影响loss的有效下降。

学习率调整：尽管您已经尝试了调整学习率，但可能还需要进一步优化。过低的学习率会导致训练速度慢、难以收敛；过高的学习率则可能导致损失震荡。您可以尝试使用学习率衰减策略，比如在代码中的scheduler.step()并未在每个epoch后执行，可以将其移入for循环内部。

Q值剪裁：您在计算loss时加入了对Q值的绝对值剪裁部分的损失，这可能是导致问题的一个因素。这种做法并不常见于标准的DQN算法实现中，它可能会干扰Q值的学习过程。建议先去掉这部分看看训练结果如何。

模型架构和超参数：除了上述几点，还应该检查模型架构是否合理，以及其它超参数设置，如批次大小、gamma值等是否合适。

解决这类问题通常需要耐心地调试和实验，逐步排查各个可能的影响因素。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于大模型的产褥期脓毒病预测及围手术期管理研究
2025-11-29 16:48

LCG元的博客摘要：本研究基于大模型技术构建产褥期脓毒病预测模型，整合多源临床数据（生命体征、实验室指标、病史等），通过Transformer-LSTM混合算法实现术前、术中、术后全流程风险评估（测试集AUC=0.9）。模型驱动个性化...
可解释性强化学习的婴幼儿高频振荡通气智能决策支持系统
2025-10-20 20:30

神经网络697344的博客摘要本文提出了一种基于可解释性强化学习的婴幼儿高频振荡通气(HFOV)智能决策支持系统。该系统创新性地将深度强化学习技术与可解释AI方法相结合，通过设计专门针对婴幼儿生理特征的奖励函数和状态表示空间，为临床...
大模型在输尿管上段积脓预测与治疗方案制定中的应用研究
2025-06-09 10:10

LCG元的博客目录一、引言1.1 研究背景与意义1.2 研究目的与创新点1.3 研究方法与技术路线二、大模型预测原理及相关技术2.1 大模型概述2.2 ...治疗方案制定与实施6.1 基于预测的手术方案优化6.2 术后护理方案6.3 健康教育与指导七
AI Agent Harness Engineering 医疗应用伦理：患者隐私保护与医疗责任界定
2026-04-05 02:07

AGI大模型与大数据研究院的博客第一部分：AI Agent Harness Engineering的基础概念——详细阐述AI Agent Harness Engineering的核心概念、问题背景、问题描述、边界与外延、概念结构与核心要素组成、概念之间的关系（包括核心属性维度对比的...
基于大模型的脓毒性休克全流程预测与管理研究报告
2025-09-27 10:21

LCG元的博客本研究构建了基于大模型的脓毒性休克预测系统，通过整合多源临床数据实现围手术期全流程风险管理。研究内容覆盖脓毒性休克的诊断标准（乳酸>2mmol/L+血管活性药物依赖）、影响因素（年龄/基础疾病/感染类型）及大...
基于大模型的产褥期败血病全周期预测与医疗方案研究
2025-11-19 22:45

LCG元的博客本研究构建了一套基于大模型的产褥期败血病多阶段预测体系，通过整合临床、检验和影像等多源数据，实现了术前风险评估（准确率91%，召回率80%）、术中实时监测预警和术后并发症预测（AUC>0.7）三大核心功能。研究...
基于大模型的急性梗阻性化脓性胆管炎风险预测与治疗方案研究报告
2025-06-15 17:28

LCG元的博客目录一、引言1.1 研究背景与意义1.2 研究目的与创新点二、急性梗阻性化脓性胆管炎概述2.1 疾病定义与病理机制2.2 临床症状与诊断标准2.3 现有治疗手段综述三、大模型技术原理与应用基础3.1 大模型介绍3.2 在医疗领域...
听说可以用ChatGPT写答辩意见了？GPT模型在律师法律文书写作领域的助益与不足
2024-07-27 22:41

javastart的博客今年以来，以ChatGPT为代表的新型人工智能语言模型（统称为“GPT模型”）风靡全球，对各行业均产生了不同程度的冲击。就律师行业而言，主要针对以GPT模型能否取代律师工作，在何种程度上能够为律师工作提供协助，...
【慢系统问诊】医疗大模型测评：自己百科 VS 医联 VS 满血未降智 o1 Pro
2025-01-07 14:53

Debroon的博客只有当我们能够研发出具备高效【主动捕获高级数据】，分辨微妙信息能力的 AI agent 时，才会实现真正的通用人工智能、超级人工智能。结论是，在信息充裕的系统，o1 Pro 推理、原创能力超强，这是其他大模型所...
超模提示词：让普通大模型，拥有超过 O1 Pro、DeepSeek-R1 的多步推理能力！
2025-02-26 17:21

Debroon的博客把隐性信息榨干：引入全面症状-疾病网络 + 11 位分析师未来版：引入专家经验下一步 · 新奇寻宝治疗方案：用循证医学获取最佳治疗方案，同时平衡最佳治疗效果与成本效益用一种药，从 203 个维度分析，周密考虑 ...
基于大模型的呼吸机相关性肺炎风险预测与干预策略研究报告
2025-11-22 18:29

LCG元的博客目录一、引言1.1 研究背景与意义1.2 研究目的与创新点二、大模型相关理论基础2.1 大模型技术概述2.2 适用于本研究的大模型类型及原理三、呼吸机...指标监测5.2 大模型对术中风险的实时评估5.3 基于风险评估的术中干预措
基于大模型的绿脓杆菌败血症全周期预测与精准诊疗研究报告
2025-10-25 21:32

LCG元的博客本研究构建了基于多模态数据的绿脓杆菌败血症全周期预测模型，整合临床、微生物及影像等多维信息，实现术前风险评估、术中动态预警及术后并发症管理的精准诊疗闭环。研究通过Transformer架构融合三维数据，建立三级...
重构诊疗效率与精准度之【AI 赋能临床诊断与辅助决策从理论到实战】
2026-04-11 03:52

Thomas.Sir的博客随着全球医疗数据量激增与医患供需矛盾凸显，人工智能（AI）正成为重塑临床诊疗范式的关键力量。本文系统性探讨AI在临床诊断与辅助决策领域的应用价值，聚焦**智能问诊、临床决策支持系统（CDSS）、罕见病/疑难病...
3万字深度解析AI大语言模型在医疗领域全面进展以及潜在前沿应用
2024-10-26 12:02

大模型产品经理的博客随着人工智能技术的快速发展,大型语言模型(Large Language Models, LLMs)在医疗健康领域的应用正引起越来越多的关注。本文将,带您了解LLMs在医疗领域的最新进展、面临的挑战以及未来的发展方向。 1. 研究背景:LLMs在...
大模型驱动的肺癌全流程智能诊疗技术方案大纲
2025-07-17 15:56

LCG元的博客本文提出了一种基于大模型的肺癌诊疗辅助系统，旨在通过整合多模态数据提升诊疗精准度。系统覆盖术前、术中、术后全流程，包括肿瘤分期复核、手术方案建议、实时风险预警、并发症预测等功能。通过多模态数据融合和AI...
MedGemma 1.5作品分享：基于真实临床问题的20组＜thought＞→＜answer＞对照案例
2026-02-22 00:41

酥团子的博客项目背景与价值 MedGemma 1.5是基于Google Gemma架构专门为医疗场景打造的本地化AI助手。这个系统最大的特点是能够在完全离线的环境下，通过思维链推理技术（Chain-of-Thought）提供专业级的医疗问答服务。对于...
大模型在预测血清引起过敏性休克中的应用研究
2025-11-22 18:37

LCG元的博客研究涵盖术前预测、术中实时监测及术后恢复管理，基于风险等级制定个性化手术、麻醉及护理方案。实验验证显示，模型预测准确性高（如AUC达[X]），显著降低休克发生率（实验组[X1]% vs 对照组[X2]%）。尽管存在数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月12日