The PSYCHE* 2021-07-06 19:47 采纳率: 0%
浏览 8

强化学习中,神经网络输入序列a,与输入由a中元素加减变换过来的b,网络训练完成后,两者的输出大相径庭

多智能体强化学习中,假设3个球0-1-2,环境返回的状态是,球0:球0坐标,(球1坐标-球0坐标),(球2坐标-球0坐标)。
当我把状态改为:球0坐标,球1坐标,球2坐标。

两者作为状态输入,训练50万次后,奖励值曲线,前者明显高于后者。
why?

  • 写回答

1条回答 默认 最新

  • 清水泡茶 2023-04-11 15:04
    关注

    在多智能体强化学习中,状态的设计对于训练效果具有重要影响。根据您所提供的信息,我认为前者设计的状态更具有代表性和信息量,因此在训练过程中产生了更好的效果。

    在前者的状态表示中,每个球的坐标都是相对于球0的位置,这意味着球0的位置对整个状态的描述至关重要。在一个多智能体系统中,每个智能体的行为和状态都会受到其他智能体的影响,而球0的位置则可以作为参考点来衡量其他球之间的相对位置和运动情况。同时,球1和球2与球0之间的向量也提供了额外的信息,使得状态更加丰富和详尽。

    相比之下,后者的状态表示中只包含每个球的绝对坐标,缺乏球与球之间的相对位置和运动信息。这可能导致智能体无法有效地感知和应对其他智能体的行为,从而导致训练效果较差。

    总之,在设计多智能体强化学习的状态时,需要考虑智能体之间的交互和影响,并选择最具代表性和信息量的状态表示方式。

    评论

报告相同问题?

悬赏问题

  • ¥15 ELGamal和paillier计算效率谁快?
  • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?
  • ¥15 ubuntu系统下挂载磁盘上执行./提示权限不够
  • ¥15 Arcgis相交分析无法绘制一个或多个图形
  • ¥15 关于#r语言#的问题:差异分析前数据准备,报错Error in data[, sampleName1] : subscript out of bounds请问怎么解决呀以下是全部代码:
  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)
  • ¥15 用前端向数据库插入数据,通过debug发现数据能走到后端,但是放行之后就会提示错误
  • ¥30 3天&7天&&15天&销量如何统计同一行
  • ¥30 帮我写一段可以读取LD2450数据并计算距离的Arduino代码