我看到一篇论文中的强化学习的状态是手动输入的,即通过导入状态数据集进行训练网络,但是之前学习的强化网络都是只输入初始状态,进而自动更新下一时刻的状态,从而训练网络,请问导入状态数据集的做法是否正确?
论文:Deep Reinforcement Learning for Online Computation Offloading
论文源码解析:
https://blog.csdn.net/qq_40472181/article/details/114148163