强化学习中，对于连续状态空间和高维动作空间，采用什么方法？

1，强化学习中，对于连续状态空间和高维动作空间，采用什么方法？
2. DPG则是确定性策略梯度与AC算法的结合，Actor采用随机策略，Critic采用确定性策略。不明白Actor和Critic之间的联系

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
fengmao31 2021-11-03 01:35
关注
分层强化学习

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

强化学习中，对于连续状态空间和高维动作空间，采用什么方法？深度学习
2021-07-22 22:04

回答 1 已采纳分层强化学习
如何将高维随机事件的概率转化为一维随机变量随机事件的概率？其他学习方法
2023-02-19 21:26

回答 9 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” 在概率论中，可以通过边缘概率分布和条件概率分布的计算，将高维随机事件的概率转化为一维随机变量随机事件的概率。例如，假设有一个二维随机变量
高维稀疏矩阵，有知道symmetric, high-dimensional, and sparse (SHiDS) matrix是什么矩阵的嘛？网络
2022-03-31 17:22

回答 1 已采纳单从英文语言本身来说，形容词修饰顺序和汉语是一样的，也就是重要的形容词放在后面好比红色高速电力机车。本质的特征更靠近名词。所以翻译成对称高维稀疏矩阵比较好。
强化学习课程学习（8）——基于连续动作空间上的方法求解RL
2020-06-22 16:33

芷若初荨的博客策略梯度提供了和DQN之类的方法不同的新思路，...这时可以考虑结合value-based强化学习方法来解决——AC算法 Actor-Critic Policy Based+Value Based结合的策略梯度方法Actor-Critic从名字上看包括两部分，演员(Actor
stacking，机器学习人工智能机器学习神经网络
2022-08-13 23:02

回答 1 已采纳想请问一下你的目标是什么？是要把这100维用几维或者十几维去表示。还是说你有label，正在训一个分类模型？
关于python中plt制图的问题，如何将Bunch中高维度的数组可视化下？ python 数据挖掘有问必答
2021-04-30 11:18

回答 3 已采纳 # 你数据中target应该是个分类变量吧, 直接用可以处理分类变量的作图就可以 # 用pandas, 颜色需要是数值 x_dr.plot.scatter(x='x轴变量',y='y轴变量',c=
最小二乘法求解稀疏典型相关分析（SCCA）的求解方法 python 最小二乘法机器学习
2023-04-21 11:57

回答 2 已采纳找了一下，感觉这篇还是不错的。https://baijiahao.baidu.com/s?id=1763761674715884101&wfr=spider&for=pc
强化学习中的连续动作空间与深度强化学习
2024-01-24 01:47

禅与计算机程序设计艺术的博客 1.背景介绍 1. 背景介绍 强化学习(Reinforcement Learning, RL)是一种...强化学习的一个关键挑战是如何在高维连续动作空间中进行优化。深度强化学习(Deep Reinforcement Learning, DRL)是一种结合了深度学习和强...
超分辨率重建网络fsrcnn结构的基础问题人工智能深度学习神经网络
2021-05-29 17:03

回答 1 已采纳这个说白了就是前边都是低纬特征，别管怎么卷积，都是根据区域局部信息算出来的。但是如果让他有更多能力，就放一个“黑盒子”来映射到高维信息。只要我最后训练结果好，这个黑盒子就是有用的。其实也可以用全连接层
这个是为什么呀，为什么这个图像识别就是跑不起来呢 pytorch
2022-07-19 16:31

回答 1 已采纳维度不匹配，你这里224x224x3下来的，经过一次卷积一次池化，再次卷积，简单计算可能最后从224X224变道7X7X128，按照每次卷积大小不变，池化缩小2计算，你这里至少是5层的卷积池化才能达到
python怎么将数组中某一数字全部改为另一数字 python
2019-07-03 21:32

回答 4 已采纳 import numpy as np arr = np.array([1,2,3,4,3,2,3,6,2,5]) num = 2 # 想要替换的数字 NUM = 10 # 替换后的数字
【论文笔记】基于动作空间划分的MAXQ自动分层方法
2022-08-02 18:00

Ctrl+Alt+L的博客基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想提出方法：基于动作空间的自动构造层次结构方法；对MAXQ的子任务终止条件进行修改；细节：动作集合划分子集→→不同状态下识别瓶颈动作→→...
关于二维数组行和列的疑问 c语言
2019-06-08 16:38

回答 2 已采纳 ``` 以s[0][0]为起点看一开始是 x x x x x x x x x x ... 放入 I love you 以后是 I _ l o v e _ y o u \0 x x x
强化学习中的PolicyGradient方法
2024-02-03 03:02

禅与计算机程序设计艺术的博客 强化学习是解决序列决策问题的一种机器学习方法，常用于游戏AI、自动驾驶等领域。Policy Gradient(政策梯度)是一种强化学习算法，它直接优化策略函数，而不是状态-价值函数或动作-价值函数。在Policy Gradient算法中...
人工智能课程笔记（7）强化学习（基本概念 Q学习深度强化学习 附有大量例题）
2023-04-29 23:32

北岛寒沫的博客 强化学习中包含几个基本概念：智能主体、状态、动作、奖励和环境。在强化学习中，智能主体通过不断与环境交互，并根据获得的奖励来不断调整自己的策略，最终学习到最优的行动策略。智能主体通过观察当前状态，选择...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月22日

悬赏问题

¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义
¥15 (标签-UDP|关键词-client)
¥15 关于库卡officelite无法与虚拟机通讯的问题
¥15 目标检测项目无法读取视频
¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
¥100 求采集电商背景音乐的方法
¥15 数学建模竞赛求指导帮助

强化学习中，对于连续状态空间和高维动作空间，采用什么方法？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新