在用强化学习对比例公平调度算法进行优化时,
需要优化的是 α和β,状态设置为
奖励设置为
想问一下我怎么通过对 α和β的优化,让他完成具体状态,即状态与 α和β之间的关系
收起
当前问题酬金
¥ 100 (您已提供 ¥ 20, 还可追加 ¥ 400)
支付方式
扫码支付
支付金额 15 元
提供问题酬金的用户不参与问题酬金结算和分配
支付即为同意 《付费问题酬金结算规则》
参考PDF文档https://arxiv.org/pdf/2007.05820
报告相同问题?