RL+GNN解决人员排班问题时梯度消失

对于人员排班问题，
考虑GNN+RL来解决。
尝试采用GATLSTM读取当前排班状态输出动作概率空间，即将图神经网络作为策略函数。

题目要求里有个硬约束：
一名员工一旦被排班，需要出勤 12 小时（其中包括 2 小时的休息时间），
同一员工两次排班之间需要间隔 12 小时以上。一名员工出勤一次视为 1 人次。

评分标准
评价指标=max(总货量需求-总可完成货量, 0)1/1000+均衡指数10000+出勤人次
评价指标低者更优；得分一致时，求解时间短者更优。

故计算损失函数 = 评价指标+W*penalty（学习硬约束）

然而梯度输出全为0
模型对penalty没有反应

部分代码：

class GATLayer(nn.Module):
    def __init__(self, in_dim, hidden_dim, out_dim, num_heads):
        super(GATLayer, self).__init__()
        self.num_heads = num_heads
        self.head_dim = hidden_dim // num_heads
        # 对源节点和目标节点的特征分别进行线性变换
        self.fc_src = nn.Linear(in_dim, hidden_dim, bias=False)
        self.fc_dst = nn.Linear(in_dim, hidden_dim, bias=False)
        self.attn_fc = nn.Linear(2 * hidden_dim, 1, bias=False)
        self.embedding_src = nn.Linear(hidden_dim, hidden_dim)  # 对源节点特征进行嵌入
        self.embedding_dst = nn.Linear(hidden_dim, hidden_dim) 
        self.dropout = nn.Dropout(0.3)  #加入噪声增加鲁棒性
        self.init_weights()

    def init_weights(self):
        nn.init.xavier_uniform_(self.fc_src.weight)
        nn.init.xavier_uniform_(self.fc_dst.weight)
        nn.init.xavier_uniform_(self.attn_fc.weight)
        nn.init.xavier_uniform_(self.embedding_src.weight)
        nn.init.xavier_uniform_(self.embedding_dst.weight)
        
    def edge_attention(self, edges):
        z_src = edges.src['z_src']
        z_dst = edges.dst['z_dst']
        a = self.attn_fc(th.cat([z_src, z_dst], dim=1))# 计算注意力分数
        e = F.leaky_relu(a)# 应用激活函数
        return {'e': e}# 返回边的注意力分数
    
    def message_func(self, edges):
        return {'z': edges.src['z_src'], 'e': edges.data['e']}

    def reduce_func(self, nodes):
        alpha = th.softmax(nodes.mailbox['e'], dim=1)
        h = th.sum(alpha * nodes.mailbox['z'], dim=1)
        return {'h': h}

    def forward(self, g, h):
        z_src = self.fc_src(h)
        z_src = F.leaky_relu(z_src)  # 添加非线性激活
        z_src = self.embedding_src(z_src)   # 特征嵌入
        z_src = self.dropout(z_src)
        
        z_dst = self.fc_dst(h)
        z_dst = F.leaky_relu(z_dst)  # 添加非线性激活
        z_dst = self.embedding_dst(z_dst)  # 特征嵌入
        z_dst = self.dropout(z_dst) 
        
        g.srcdata['z_src'] = z_src  # 使用不同的特征名称
        g.dstdata['z_dst'] = z_dst 
        
        g.apply_edges(self.edge_attention)
        g.update_all(self.message_func, self.reduce_func)

        return g.ndata.pop('h')
class GAT(nn.Module):
    def __init__(self, in_dim, hidden_dim, num_heads, num_classes):
        super(GAT, self).__init__()
        self.hidden_dim = hidden_dim
        self.gat1 = GATLayer(in_dim, hidden_dim, hidden_dim * num_heads, num_heads)
        self.gat2 = GATLayer(hidden_dim, hidden_dim, hidden_dim * num_heads, num_heads)
        self.lstm = nn.LSTM(hidden_dim, hidden_dim, batch_first=True)
        self.bn1 = nn.BatchNorm1d(hidden_dim)
        self.fc = nn.Linear(hidden_dim, num_classes)
        self.dropout = nn.Dropout(0.3)
        self.init_weights()
    def init_weights(self):
        nn.init.xavier_uniform_(self.fc.weight)
        for name, param in self.lstm.named_parameters():
            if 'weight' in name:
                nn.init.xavier_uniform_(param)
            elif 'bias' in name:
                nn.init.constant_(param, 0)
                
    def forward(self, g, features, hidden):
        x = self.gat1(g, features)
        x = self.dropout(x) 
        #sx = self.gat2(g, x)
        x = x.unsqueeze(0)
        x, hidden = self.lstm(x, hidden)
        x = x.squeeze(0) #去除batch维度
        x = self.bn1(x)
        x = self.fc(x)
        x = x.view(data0.node_sum,1)
        return x, hidden
    
    def init_hidden(self, batch_size):
        return (th.zeros(1, batch_size, self.hidden_dim),
                th.zeros(1, batch_size, self.hidden_dim))
```python
infeat = initial_state.size(1)
model = GAT(infeat,30,8,1)
optimizer = optim.SGD(model.parameters(), lr=learning_rate) #优化器
evaluation = float('inf')

for episode in range(num_episodes): #玩num轮
    #重置状态
    schedule = {}
    employee_hours = {}
    employee_schedule = {}
    state_tensor = env.reset(g) 
    episode_reward = 0
    penalty0 = 0
    batch_size = 1
    hidden = model.init_hidden(batch_size)
    total_loss = th.tensor(0.0, requires_grad=True)
    print(f"episode{episode}")
    
    for step in range(data0.time-data0.cycle+1):
        optimizer.zero_grad()  
        
        #print("step:"+str(step))
        for dept in range(1,5):
            
            f,hidden = model(g, state_tensor, hidden) # 使用策略网络获取动作概率
            action_probs = f[:len(data0.employee_data)]
            reward, penalty = env.step(g, employee_hours, employee_schedule, step, dept, action_probs)     #采取动作
            penalty0 += penalty
            episode_reward += reward * (discount_factor ** step)# 计算奖励折扣和更新 episode_reward
        schedule,state_tensor = env.observe(g, schedule)  #更新环境
        #print("step_reward:"+str(reward))
        
    loss2, loss3 = calloss2(employee_hours)
    loss1 = calloss1(g)
    total_loss = th.add(total_loss, 0.001*max(loss1,0)+loss2*10000+loss3 + penalty0*10000)
    print(f"total_loss:{total_loss.item()}  loss1:{0.001*max(loss1,0)} loss2:{loss2*10000} loss3:{loss3} penalty{penalty0*10}")
    total_loss = total_loss / 1000000
    print(f"lossadjus:{total_loss}")
    total_loss.backward()
    #th.nn.utils.clip_grad_norm_(model.parameters(), max_norm=50.0)
    
    grad_norm = th.nn.utils.clip_grad_norm_(model.parameters(), 2)
    print('Gradient Norm:', grad_norm)
    optimizer.step()

补充：强化学习的部分对于action是依照输出的action_probs选取员工，若在该时间点员工is_available不为0，则给予惩罚。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

27条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-19 14:37
关注
获得0.20元问题酬金
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

您想要解决的问题：

您正在尝试解决的问题是在使用图神经网络（GNN）结合强化学习（RL）解决人员排班问题时遇到的梯度消失问题。具体来说，您希望模型能够学习到在排班时遵守硬约束（员工排班间隔至少12小时），但是模型对惩罚项（penalty）没有反应，导致梯度输出全为0。

问题出现原因：

梯度消失：在深度神经网络中，梯度消失是一个常见问题，特别是在使用循环神经网络（RNN）时。这可能导致网络中的权重更新非常缓慢，甚至不更新。
惩罚项权重不足：在损失函数中，惩罚项的权重（W）可能设置得太低，导致模型对硬约束的惩罚不够敏感。
损失函数设计：损失函数的设计可能不够合理，导致模型在优化过程中无法有效地学习到遵守硬约束的重要性。

问题解决方案：

调整惩罚项权重：增加惩罚项的权重，使得模型更加关注硬约束。
使用梯度裁剪：在训练过程中使用梯度裁剪技术，防止梯度爆炸或消失。
优化损失函数：重新设计损失函数，确保模型能够在遵守硬约束的同时，优化其他评价指标。
改进网络结构：考虑使用更深层次的网络结构，或者添加残差连接来帮助梯度流动。

提供代码：

由于我无法提供完整的代码，我将提供一些修改现有代码的建议：

# 增加惩罚项的权重 penalty_weight = 1.0 # 根据需要调整这个值 # 在损失函数中使用更大的惩罚权重 total_loss = th.add(total_loss, penalty_weight * max(loss1, 0) + loss2 * 10000 + loss3 + penalty0 * 10000) # 使用梯度裁剪 # 在 optimizer.step() 之前添加 torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0) # 重新设计损失函数，确保硬约束被充分考虑 # 这需要根据具体的评价指标和约束条件来调整

代码运行方式：

确保您的环境中安装了PyTorch，因为您的代码是基于PyTorch框架编写的。
将上述修改后的代码替换到您的原始代码中相应的位置。
运行您的训练脚本，观察模型是否能够学习到遵守硬约束。

代码预期运行结果：

模型应该能够在训练过程中学习到遵守硬约束，并且在损失函数中对违反约束的行为给予足够的惩罚。
梯度消失问题应该得到缓解，模型的权重更新将更加有效。

推荐相关链接：

PyTorch 官方文档：了解PyTorch框架的详细使用方法。
梯度消失和爆炸：了解梯度消失和爆炸的基本概念和解决方法。
强化学习中的惩罚项：了解如何在强化学习中有效地使用惩罚项来引导模型行为。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

自适应网络在AI算力网络与通信中的云计算应用
2025-07-04 19:58

程序员光剑的博客在人工智能与云计算飞速发展的今天，我们正面临一场无声的革命——AI算力需求呈指数级增长与传统网络架构固有的刚性之间的矛盾日益凸显。本文将深入探讨自适应网络如何成为解决这一矛盾的关键技术，它就像一个"智能...
AI驱动的制造业能耗控制：架构师的3个智能工厂案例
2025-08-15 15:32

AI大模型应用之禅的博客作为一名在工业互联网和AI领域深耕十余年的软件架构师，我亲历了制造业从自动化向智能化转型的浪潮。能源成本持续攀升、“双碳”目标压力以及日益严格的环保法规，正推动制造企业将能耗控制提升到战略高度。AI技术，...
【车间调度】基于卷积神经网络的柔性作业车间调度问题的两阶段算法附Matlab代码
2025-05-22 09:14

Matlab前程算法屋的博客柔性作业车间调度问题（Flexible Job Shop Scheduling Problem, FJSP）是离散制造领域中的一个经典且复杂的NP-hard问题。相较于传统的作业车间调度问题（Job Shop Scheduling Problem, JSP），FJSP增加了工件可以在...
PyTorch深度强化学习路径规划, SAC-Auto路径规划, Soft Actor-Critic算法, SAC-pytorch，激光雷达Lidar避障，激光雷达仿真模拟，Adaptive-SAC附
2025-05-16 07:07

Matlab前程算法屋的博客传统的路径规划算法，如Dijkstra、A*或RRT等，虽然在静态或已知环境中表现良好，但在面对动态障碍物、未知环境或需要考虑复杂环境交互时，其局限性逐渐显现。近年来，深度强化学习（Deep Reinforcement Learning，...
【WSN】强化学习的节能路由【含Matlab源码 14180期】
2025-09-16 21:25

Matlab武动乾坤的博客 ⛄一、强化学习的节能路由 1 强化学习的节能路由原理强化学习（RL）通过智能体与环境的交互学习最优策略，适用于动态网络环境下的节能路由优化。其核心原理是利用马尔可夫决策过程（MDP）建模路由问题，通过最大化...
【WSN】基于matlab强化学习的节能路由【含Matlab源码 14180期】
2025-09-16 21:21

海神之光的博客 ⛄一、强化学习的节能路由 1 强化学习的节能路由原理强化学习（RL）通过智能体与环境的交互学习最优策略，适用于动态网络环境下的节能路由优化。其核心原理是利用马尔可夫决策过程（MDP）建模路由问题，通过最大化...
复杂交通模式下电梯调度算法的方向优化附Matlab代码
2025-10-19 16:42

Matlab前程算法屋的博客随着城市化进程的加速和高层建筑的普及，电梯作为垂直交通的核心...本文深入探讨了复杂交通模式下电梯调度算法的优化方向，旨在通过引入人工智能、物联网、大数据等前沿技术，构建更加智能、高效、节能的电梯调度系统。
某交通企业AI竞争力提升：AI应用架构师的5个智能调度设计
2025-08-08 10:10

AI原生应用开发的博客智能调度=“预测+决策+执行”的闭环预测层：用数据预测未来的需求（比如“18:00-19:00，国贸区域将有1200个打车需求”）和资源状态（比如“当前该区域有300辆空车，其中50辆在10分钟内会进入拥堵路段”）；...
【节日快乐】【智能体（AI Agent）技术全景解析：从理论基石到产业落地】
2025-10-24 20:22

再见孙悟空_的博客文章首先从定义和特征入手，指出智能体是具备环境交互性与目标导向性的人工智能系统，具有自主性、反应性、社会性和学习能力四大核心特征。随后梳理了智能体从符号主义到现代大模型驱动的技术演进脉络，并详细阐述了...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月19日

RL+GNN解决人员排班问题时梯度消失

27条回答 默认 最新

您想要解决的问题：

问题出现原因：

问题解决方案：

提供代码：

代码运行方式：

代码预期运行结果：

推荐相关链接：

问题事件

27条回答默认最新