我最近在用强化学习DQN算法解非线性整数规划问题。 state是一个三维的整数数组[a,b,N],a取值[0,4] , b取值[0,2]。但是其中N的取值范围取决于a,N=[1, math.floor(2000/3/a)],也就是N取值范围有5种,所以状态空间无法用 Box() 直接表示,不知道大佬能否指点一下,如何表示状态空间呀?
收起
报告相同问题?