以下是Sarsa算法与Q-learning算法的大致流程图,并提出了一种Q-learning变种算法:
状态 | 策略 | 行为 | 状态 | 策略 | 行为 | 状态 | 策略 | 行为 | …… |
---|
S1 | e-greedy | A1 | S2 | e-greedy | A2 | S3 | e-greedy | A3 | …… |
| | | | | 更新Q(S1, A1)以Q(S2, A2) | | | 更新Q(S2, A2)以Q(S3, A3) | …… |
状态 | 策略 | 行为 | 状态 | 策略 | 行为 | 状态 | 策略 | 行为 | …… |
---|
S1 | e-greedy | A1 | S2 | e-greedy | A2 | S3 | e-greedy | A3 | …… |
| | | | greedy | a2 | | greedy | a3 | …… |
| | | | | 更新Q(S1, A1)以Q(S2, a2) | | | 更新Q(S2, A2)以Q(S3, a3) | …… |
状态 | 策略 | 行为 | 状态 | 策略 | 行为 | 状态 | 策略 | 行为 | …… |
---|
S1 | e-greedy | A1 | S2 | e-greedy | A2 | S3 | e-greedy | A3 | …… |
| | | | e-greedy | a2 | | e-greedy | a3 | …… |
| | | | | 更新Q(S1, A1)以Q(S2, a2) | | | 更新Q(S2, A2)以Q(S3, a3) | …… |
Q-learning变种算法使用两个相同的e-greedy策略,其中评估策略生成的行为a2, a3等并没有实际采用。这种算法依然是off-policy的吗?和Sarsa算法等效吗?算法冒险与否主要是来自于是on-policy和off-policy的区别还是e-greedy和greedy策略的区别?
【经过实验,我发现Q-learning变种算法也倾向于找到更安全的路径,与Sarsa算法类似,而不是像Q-learning算法一样冒险、激进。】