多智能体强化学习中,假设3个球0-1-2,环境返回的状态是,球0:球0坐标,(球1坐标-球0坐标),(球2坐标-球0坐标)。当我把状态改为:球0坐标,球1坐标,球2坐标。
两者作为状态输入,训练50万次后,奖励值曲线,前者明显高于后者。why?
收起
当前问题酬金
¥ 0 (可追加 ¥500)
支付方式
余额支付
余额: ¥ 499
扫码支付
提供问题酬金的用户不参与问题酬金结算和分配
支付即为同意 《付费问题酬金结算规则》
报告相同问题?