PPO 掩蔽动作实现问题

问题遇到的现象和发生背景

发生背景：我在研究关于PPO的掩蔽动作问题和实现
在写代码过程中，我根据《A Closer Look at Invalid Action Masking in Policy Gradient Algorithms》这篇文章在PPO上加个掩蔽无效动作功能。主要是通过负无穷值，经过softmax后使得无效动作概率为0，最重要的是把这掩蔽行为写入神经网络模型中。actor网络搭建，有两个输入层，Input1是输入状态state二维数组，Input2是输入当前动作掩蔽二维数组，Input1经过两层后得到与Input2维度相同的张量，然后将该张量与Input2元素相加，最后经过softmax输出各动作概率。网络模型输出的结果大相径庭。比如说：当前只有第一个动作为有效动作，经模型训练后，输出的最终动作概率确是其他动作概率为1，而不是第一个动作概率为1。

先是输出相加结果

    # 建立Actor网络
    def _build_anet(self, trainable=True):
        tfs_a = Input(shape=(S_DIM))
        l1 = Dense(68, 'relu', trainable=trainable)(tfs_a)
        l2 = Dense(A_DIM, 'softmax', trainable=trainable)(l1)
        mask_a = Input(shape=(A_DIM))
        l4 = Add()([l2, mask_a])
        # a_prob = Dense(A_DIM, 'softmax', trainable=trainable)(l4)
        model_a = keras.models.Model(inputs=[tfs_a, mask_a], outputs=l4)
        model_a.summary()
        return model_a

结果如下图：

    def _build_anet(self, trainable=True):
        tfs_a = Input(shape=(S_DIM))
        l1 = Dense(68, 'relu', trainable=trainable)(tfs_a)
        l2 = Dense(A_DIM, 'softmax', trainable=trainable)(l1)
        mask_a = Input(shape=(A_DIM))
        l4 = Add()([l2, mask_a])
        a_prob = Dense(A_DIM, 'softmax', trainable=trainable)(l4)
        model_a = keras.models.Model(inputs=[tfs_a, mask_a], outputs=a_prob)
        model_a.summary()
        return model_a

结果如下图：

很显然，这前后不对啊。目前不很懂啥子原因，有没有哪位资深学者能指导指导呀~

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Jackyin0720 2022-11-01 15:04
关注
提供参考链接【深度强化学习笔记之PPO实现细节2】，期望对你有所帮助：https://blog.csdn.net/Azahaxia/article/details/117329002
【该博主在深度强化学习上有较深的体悟，其次在PPO实现上也有自己的理解，你可相互关注，讨论学习】

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
linux多网卡及多拨号的问题 linux ubuntu 网络
2016-12-21 01:31

回答 2 已采纳 http://blog.csdn.net/yuanbinquan/article/details/51468886
强化学习代码报错，typerror python
2022-10-05 11:55

回答 1 已采纳 StopTrainingOnRewardThreshold 不是都提示说传递了一个不期望的参数 'treshhold_type' Ctrl +鼠标左键点进去看下这个方法都需要哪些参数啊
【强化学习论文】多智能体强化学习是一个序列建模问题
2022-12-07 18:04

Wwwilling的博客是agent的动作空间的乘积,即联合动作空间，R:O×A→[−Rmax,Rmax]R : O × A → [−R_{max}, R_{max}]R:O×A→[−Rmax,Rmax] 为联合奖励函数，P:O×A×O→RP : O × A × O → RP:O×A×O→R 为转移概率函数，...
报错：'NoneType' object has no attribute 'shape' opencv python
2021-09-25 13:30

回答 2 已采纳这个是已经处理完了，读取的数据为空，所以为nonetype
使用rllib进行动作屏蔽
2020-09-05 10:17

weixin_26720761的博客代理尽早搜索状态空间，并采取随机动作以了解导致良好奖励的原因。非常简单。 Unfortunately, this isn’t terribly efficient, especially if we already know something about what makes a good vs. bad action...
Interactive Natural Language Processing
2023-06-27 19:02

UnknownBody的博客交互式自然语言处理（iNLP）已成为NLP领域的一种新范式，旨在解决现有框架中的局限性，同时与人工智能的最终目标保持一致。这种范式将语言模型视为能够反复观察、行动和接收来自外部实体的反馈的代理。具体而言，...
大语言模型(LLMs)综述调研
2023-08-24 16:31

nanobobo的博客架构选择使用LM目标进行预训练时，casual decoder架构可以实现出色的零样本和少样本泛化能力，并表现出优于其他架构的零样本性能。此外，指令调整和对齐调整已经被证明可以进一步增强大型casual decoder模型的能力。...
【论文笔记】Training language models to follow instructions with human feedback A部分
2024-04-30 16:37

Ctrl+Alt+L的博客这些模型具有相同的架构，唯一的区别是 InstructGPT 在 OpenAI 的人工数据上进行了微调。即使向 GPT-3 添加一些提示以使其更好地遵循指令，这个结果仍然成立。 OpenAI 的 1750 亿参数 InstructGPT 的输出在 85 ± 3 ...
一文速览Llama 3.1——对其92页paper的全面细致解读：涵盖语言、视觉、语音的架构、原理
2024-07-24 12:19

v_JULY_v的博客因此，这样的训练数据更符合每轮优化中策略模型的分布此外，它们还探索了诸如PPO(Schulman等，2017)等在线算法，但发现DPO在大规模模型上所需的计算量更少，并且表现更好，特别是在像IFEval(Zhou等，2023)这样的...
【ICML2018】63篇强化学习论文全解读
2018-11-09 08:50

喜欢打酱油的老鸟的博客由全球最大中文IT社区CSDN与全球AI技术社区AICamp共同打造的千人技术盛会——2018 AI...本次大会汇聚海内外顶尖AI专家，面向全球AI开发者和科技企业，旨在搭建国际间的AI技术交流与学习平台，探索AI技术的...
2024年7月30日Arxiv人工智能相关论文
2024-07-30 19:35

数智笔记的博客人们普遍预期，人类终将创造出比我们聪明得多的人工智能系统，从而引发了“如何控制超智能”的未解决对齐问题。然而，这个定义不仅自相矛盾，而且可能无法解决。然而，解决这个问题的默认策略涉及培养（后训练）约束...
【完结】cyのMemo（20240422~20240608）
2024-04-22 20:47

囚生CY的博客太阳，终将再度升起。
论文阅读-学习用双向协同变压器交替解决路由问题
2022-05-24 17:27

oliveQ的博客近年来，变压器已成为解决车辆路径问题(VRPs)的主流深度架构。然而，由于其位置编码(PE)方法不适用于表示VRP解，因此它在VRP的学习改进模型中效果较差。本文提出了一种新的双侧向特征协同变压器(DACT)来分别学习...
AIGC 综述 2023：A History of Generative AI from GAN to ChatGPT
2023-05-19 17:06

X_Imagine的博客事实上，ChatGPT和其它生成人工智能（GAI）技术属于人工智能生成内容（AIGC）的范畴，它涉及到通过人工智能模型创建数字内容，如图像、音乐和自然语言。AIGC 的目标是使内容创建过程更高效和可访问性，允许以更快的...
人工神经网络相关名词
2024-08-06 07:37

百态老人的博客一、人工神经网络人工神经网络（Artificial Neural Networks，ANN）是一种模拟人脑神经网络结构和功能的计算模型，用于解决各种问题，如分类、回归、聚类等。它由多个神经元（Neuron）组成，每个神经元接收多个输入...
了解 LLMOps、架构模式、如何在本地或云端评估、微调和部署 HuggingFace 生成式 AI 模型。
2024-07-30 18:44

CloseAi论坛的博客不同法学硕士 (LLM) 之间的区别仅编码器- 或者自动编码器使用一种称为掩蔽语言建模 (MLM) 的技术进行预训练，该技术随机掩蔽输入标记并尝试预测被掩蔽的标记。仅编码器模型最适合利用编码器生成的嵌入的语言任务...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 11月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 10月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月22日

悬赏问题

¥15 求解答一下是否可以修改一个软件运行时生成的文件内部内置的文件创建时间？
¥15 求在R环境下用corrplot画一个相关图
¥20 WIN10蓝屏问题！
¥15 Mac经常自动关机，再次打开后提示“电脑因出现问题而重新启动”
¥60 使用ovito软件怎么得到金属玻璃的自由体积
¥15 急！如何实现根据汇编指令推测硬件功能？
¥20 excel处理10000万条数据方法
¥15 hc32串口接收数据
¥15 阻抗控制阻尼参数过小报错
¥15 在Unity开发环境中用NPOI插件输出Word文档可以，当我打包到Windows系统软件的时候输出Word文档就出现文件损坏