The PSYCHE* 2021-07-06 19:47
浏览 4

强化学习中,神经网络输入序列a,与输入由a中元素加减变换过来的b,网络训练完成后,两者的输出大相径庭

多智能体强化学习中,假设3个球0-1-2,环境返回的状态是,球0:球0坐标,(球1坐标-球0坐标),(球2坐标-球0坐标)。
当我把状态改为:球0坐标,球1坐标,球2坐标。

两者作为状态输入,训练50万次后,奖励值曲线,前者明显高于后者。
why?

  • 写回答

0条回答 默认 最新

      报告相同问题?

      相关推荐 更多相似问题

      悬赏问题

      • ¥15 C语言,密切接触者追踪
      • ¥20 关于计算机网络问题,请附带讲解
      • ¥20 论文附带的代码如何运行?
      • ¥30 自动识别图像目标并判断
      • ¥30 BP神经网络遥感图像分类问题
      • ¥20 新闻小程序6万人在线
      • ¥15 Fluent轴流风扇模拟
      • ¥15 基于GPS的自行车定位系统设计
      • ¥15 idea中安装matplotlib模块完成,运行还是显示无安装
      • ¥15 robotframework 运行报错