DQN，图中计算价值函数的部分是什么意思？

如图，Q直接用self.qnet(b_o)不可以吗，tf.reduce_sum(self.qnet(b_o) * tf.one_hot(b_a, action_dim), 1)想表达什么意思？

b_o是当前状态，也就是当前的图像
b_a是当前状态下的动作
b_r是当前状态下的奖励
b_o_是下一个状态

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

一切皆是映射：DQN中的目标网络：为什么它是必要的？
2024-08-22 01:15

光子AI的博客 1.1 强化学习与DQN 强化学习 (Reinforcement Learning, RL) 是一种机器学习方法，专注于训练智能体 (Agent) 通过与环境交互来学习做出最佳决策。智能体通过尝试不同的动作并观察环境的反馈 (奖励或惩罚) 来学习如何...
【强化学习解惑】强化学习中的策略（policy）、价值函数（value function）和Q函数分别代表什么？
2025-07-16 18:46

云博士的AI课堂的博客强化学习中的策略（policy）、价值函数（value function）和Q函数分别代表什么？
一切皆是映射：深入理解DQN的价值函数近似方法
2024-10-07 16:36

光子AI的博客一切皆是映射：深入理解DQN的价值函数近似方法作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：深度强化学习、深度Q网络、价值函数近似、神经网络、策略学习、探索-利用平衡
一切皆是映射：解析DQN的损失函数设计和影响因素
2024-04-21 12:13

光子AI的博客 1. 背景介绍 1.1 强化学习与Q-Learning 强化学习是机器学习的一个重要分支,旨在让智能体(agent)通过与环境的交互来学习...Q-Learning是强化学习中最著名和最成功的算法之一,它通过估计每个状态-行为对的价值函数(Q值
一切皆是映射：DQN的损失函数设计与调试技巧
2024-05-06 01:58

光子AI的博客 1. 背景介绍深度强化学习（Deep Reinforcement Learning，DRL）近年来取得了显著的进展，其中深度...DQN的核心思想是利用深度神经网络逼近价值函数，并通过不断迭代优化策略，最终实现智能体的目标。在DQN的训练过程中
深度学习、强化学习：用PyTorch实现强化学习中的基于价值函数的方法DQN及ActorCritic方法
2023-07-31 00:39

光子AI的博客 人工智能领域中，基于价值函数的方法是指采用状态和动作的函数来计算返回值（即价值）的机器学习方法，在游戏领域，这些方法被广泛应用于最优决策问题的求解上。近几年，随着深度学习技术的发展，基于价值函数的方法...
一切皆是映射：DQN中的非线性函数逼近：深度学习的融合点
2024-08-01 00:38

光子AI的博客一切皆是映射：DQN中的非线性函数逼近：深度学习的融合点作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来
一切皆是映射：DQN的边缘计算优化：降低延迟与提升响应
2024-04-22 14:50

光子AI的博客随着物联网(IoT)设备和智能终端的快速增长,传统的云计算架构面临着一些挑战,如高延迟、带宽限制和隐私安全问题。为了解决这些问题,边缘计算(Edge Computing)应运而生。边缘计算是一种将计算资源分布到网络边缘的...
一切皆是映射：DQN在能源管理系统中的应用与价值
2024-06-12 00:29

光子AI的博客一切皆是映射：DQN在能源管理系统中的应用与价值 1.背景介绍在现代社会，能源管理系统（EMS）在电力、石油、天然气等领域中扮演着至关重要的角色。随着能源需求的不断增长和可再生能源的普及，如何高效地管理和分配...
价值函数近似-prediction\control（DQN）
2023-12-27 00:32

LeeKooktao的博客价值函数近似相关内容学习，预测与控制，包括DQN网络的原理。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月27日

DQN，图中计算价值函数的部分是什么意思？

0条回答 默认 最新

问题事件

0条回答默认最新