如图,Q直接用self.qnet(b_o)不可以吗,tf.reduce_sum(self.qnet(b_o) * tf.one_hot(b_a, action_dim), 1)想表达什么意思?
b_o是当前状态,也就是当前的图像
b_a是当前状态下的动作
b_r是当前状态下的奖励
b_o_是下一个状态
如图,Q直接用self.qnet(b_o)不可以吗,tf.reduce_sum(self.qnet(b_o) * tf.one_hot(b_a, action_dim), 1)想表达什么意思?
b_o是当前状态,也就是当前的图像
b_a是当前状态下的动作
b_r是当前状态下的奖励
b_o_是下一个状态