DQN训练中，设置ε-greedy策略，取得相反的训练结果**（智能体一开始选择最优动作，后期选择较多随机动作，为什么训练效果反而更好，是哪个环节出现问题了）

问题现象：DQN训练中，设置ε-greedy策略，取得相反的训练结果（智能体一开始选择最优动作，后期选择较多随机动作，为什么训练效果反而更好，是哪个环节出现问题了）。

问题描述：（1）智能体有ε的概率选择随机动作，（1-ε）的概率选择最优动作。在训练中，令ε单调递减（一开始更多选择随机动作，随着训练加深，逐渐选择最优动作）。代码如下所示

图A1 参数设置（合理值）

图A2 动作选择函数

图A3 训练结果

图B1 参数设置和动作选择函数（相比图A1，A2，参数设置不变，但是目标选择函数中：以1-ε的概率选择随机值）

图B2 训练结果

原则上说，一开始让智能体选择较多的随机动作，越后期，随机动作越小，这样的训练效果最好，但为什么在我的实验中，是相反的？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
yy64ll826 2022-11-25 10:41
关注
DQN的e-greedy策略理解
https://blog.csdn.net/qq_42818011/article/details/123613257

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

代码实现DQN的ε-greedy（Epsilon贪婪策略），取得相反结果
2022-11-21 10:12

weixin_43853194的博客 DQN训练中，设置ε-greedy策略，一开始让智能体选择较多的随机动作，越后期，随机动作越小，这样的训练效果最好，但为什么在我的实验中，是相反的？
强化学习入门学习第三课 —— 探索与利用：ε-greedy、UCB、Softmax、噪声策略
2025-12-04 17:02

鲨莎分不晴的博客在强化学习的世界里，存在一个永恒的两难困境——探索（Exploration）还是利用（Exploitation）？是安于现状享受已知的美好，还是勇闯未知寻找更大的宝藏？今天，让我们深入研究四种经典的探索策略，看看它们如何在...
基于Q-learning算法和ε-greedy策略解决随机生成的方形迷宫问题附Matlab代码
2025-10-06 17:15

Matlab前程算法屋的博客本文旨在探讨如何利用强化学习中的 Q-learning 算法，结合 ε-greedy 策略，有效地解决随机生成的...ε-greedy 策略的引入，则平衡了探索与利用，使得智能体在学习过程中既能发现新的潜在路径，又能充分利用已知信息。
从0开始机器学习--8.强化学习（详细原理概念、策略Q-学习，SARSA，DQN、策略优化、算法大全，含代码）
2024-10-07 05:15

LetItRun的博客深入解析：基础概念，动态规划、Q-learning、SARSA、DQN、ac、PD算法，Boltzmann、ϵ-greedy策略，优先级回放技术
Deep Q-Network（DQN）智能体：从零开始教会AI玩超级马里奥
2026-03-04 18:04

YOLO项目的博客本文详细介绍了如何使用深度强化学习中的Deep Q-Network（DQN）算法训练一个能够自动玩超级马里奥的AI智能体。我们将从理论基础出发，逐步构建完整的训练流程，包括环境搭建、神经网络设计、经验回放机制、探索策略...
Python-DQN代码阅读(6)-dpn.py
2023-04-14 11:01

天寒心亦热的博客 Python-DQN代码阅读(6) （1）导入所需要的包（2）设置游戏并选择有效的操作（3）设置模式(train/test)和开始迭代（4）创建环境（5）创建存储检查点文件的路径和目录（6）定义deep_q_learning()函数 (7)使用...
一切皆是映射：理解DQN的稳定性与收敛性问题
2024-04-19 16:23

光子AI的博客一切皆是映射：理解DQN的稳定性与收敛性问题 1. 背景介绍 1.1 强化学习与Q-Learning 强化学习是机器学习的一个重要分支,旨在让智能体(agent)通过与环境的交互来学习如何采取最优行为策略,从而最
NoisyNet-DQN实战：用TensorFlow2.0实现Atari游戏中的智能探索（附完整代码）
2025-09-07 10:14

小风微灵·cat的博客本文详细介绍了如何使用TensorFlow 2.0实现NoisyNet-DQN算法，以解决Atari游戏中的智能探索问题。通过将探索的随机性内置于神经网络参数，替代传统的ε-greedy策略，实现了数据驱动的自适应探索。文章提供了从环境...
终极指南：TensorLayer强化学习探索策略解析 - ε-贪婪与玻尔兹曼探索
2025-11-05 02:29

薛珑佳的博客在强化学习中，探索策略是智能体学习过程中的关键环节，直接影响学习效率和最终性能。本文将深入解析两种常用的探索策略——ε-贪婪和玻尔兹曼探索，并结合TensorLayer的实际应用进行说明。 ## 强化学习探索策略的...
智能体在车联网中的应用：第18天经典表格型RL算法：Q-Learning原理与在FrozenLake环境中的手动实现
2025-12-24 08:30

MarkHD的博客通过手动编程实现了完整的Q-Learning训练过程，包括ε-greedy策略选择、Q值更新公式和训练循环。实验结果表明，该算法能够有效学习到从起点到目标点的最优路径，克服了环境随机性和稀疏奖励的挑战。文章不仅提供了...
24、基于好奇心驱动探索的DQN与ICM模型训练实践
2025-09-04 07:01

落叶知秋263的博客本文详细介绍了基于深度Q网络（DQN）和内在好奇心模块（ICM）的智能体训练实践，以超级马里奥兄弟游戏为应用场景。通过搭建Q网络、策略函数、经验回放机制，并结合ICM的前向模型、逆向模型和编码器，实现智能体在无...
强化学习实战：如何用经验回放（Experience Replay）提升DQN训练效率？
2025-10-24 03:08

c8d9e0f1的博客本文深入探讨了如何利用经验回放技术提升深度Q网络（DQN）的训练效率与稳定性。通过分析经验回放的核心原理，对比均匀抽样与优先级抽样的实现，并提供关键参数调优指南，帮助开发者有效解决数据序列相关性、灾难性...
你还在盲目训练？：重新定义智能体学习路径的5个关键步骤
2025-12-12 17:21

LearnPlex的博客掌握高效训练智能体的秘诀：本文深入解析学习路径的强化学习，通过环境设计、奖励重塑等5个关键步骤，优化决策模型训练效率。适用于机器人控制与游戏AI场景，显著提升收敛速度与性能表现，值得收藏。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 11月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月21日

DQN训练中，设置ε-greedy策略，取得相反的训练结果**（智能体一开始选择最优动作，后期选择较多随机动作，为什么训练效果反而更好，是哪个环节出现问题了）

1条回答 默认 最新

问题事件

1条回答默认最新