在用强化学习对比例公平调度算法进行优化时,
需要优化的是 α和β,状态设置为
奖励设置为
想问一下我怎么通过对 α和β的优化,让他完成具体状态,即状态与 α和β之间的关系
参考PDF文档https://arxiv.org/pdf/2007.05820