强化学习中的策略梯度算法，$\pi(\theta)$ Π（θ）是一个怎么的函数呢？对应的动作空间是有限的？还是无限的呢？

一般采用策略梯度的方法，是不是对应的动作空间是有限的呢？比如动作空间有{上，下，左，右}，但是对当前状态的施加某个动作的概率是不一定的，所以要寻找最佳的动作策略，是吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

【机器学习】什么是连续状态空间？如何构建一个强化学习的算法以及构建强化学习算法中的一些问题
2022-08-21 11:04

晓亮.的博客以上就是今天要讲的内容，本文主要讲解了如何去...首先介绍了什么是连续状态空间，这是构建强化学习算法必须理解的，然后介绍了构建一个强化学习算法的框架，重点就是找到策略Pi。随后提到了学习状态值函数的完整算法。
深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理
2025-05-14 13:11

Mr.Winter`的博客软性演员-评论家(Soft Actor-Critic, SAC)算法是基于最大熵原理的离线策略方法，具有高效的采样效率和泛化能力。本文从最大熵贝尔曼方程的引入动机出发，介绍SAC算法的三个核心参数化步骤与算法流程
【NeurIPS 2019】一种多目标强化学习和策略自适应的通用算法
2026-01-04 21:05

薛定e的猫咪的博客提出了一种适用于带线性偏好的多目标强化学习（MORL）的新算法，目标是实现对新任务的少样本适配。在 MORL 中，核心目标是学习针对多个竞争目标的策略，而这些目标的相对重要性（偏好）对智能体而言是未知的。
强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）
2022-04-12 23:42

CyrusMay的博客 强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）1. 动作空间1.1 离散动作空间1.2 连续动作空间 1. 动作空间 1.1 离散动作空间比如:{left,right,up}\{left,right,up\}{left,right,up} DQN可以用于...
基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1
2022-07-02 14:43

白水baishui的博客论文：Safe Reinforcement Learning with Linear...近年来，强化学习的安全性变得越来越重要。然而，现有的解决方案要么无法严格避免选择不安全的动作，这可能导致安全关键系统的灾难性结果，要么无法为需要学.........
详解受约束的强化学习(一、入门学习)
2025-05-19 11:42

白云千载尽的博客受约束的强化学习（Constrained RL）旨在最大化期望奖励的同时满足特定的约束条件。其核心思想是通过优化策略来实现这一目标，约束条件可以是软约束、概率约束或硬约束。常用的方法包括CPO、CRPO、PCPO和SPACE等，...
离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BEAR算法原理详解与实现
2022-04-05 22:17

@RichardWang的博客策略约束（Policy constraint）作为一种非常重要的约束方法广泛的用在强化学习领域，然而，在offline中，BCQ使用的VAE和生成扰动网络虽然解决了extrapolation error,但对于一些仍然处于行为策略分布外（Out-of- ...
第十四章深度确定性策略梯度（Deep Deterministic Policy Gradient Algorithms，DDPG）-强化学习理论学习与代码实现（强化学习导论第二版）
2020-04-18 12:39

松间沙路hba的博客将深度学习与强化学习相结合的方法取得了显著的进展，“深度Q网络”(Deep Q Network， DQN)算法能够在许多雅达利(Atari)视频游戏中使用未经处理的像素作为输入，就达到人类水平的性能，其中使用深度神经网络函数逼近...
基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2
2022-07-02 14:43

白水baishui的博客论文：Safe Reinforcement Learning with Linear Function Approximation ...会议/年份：PMLR / 2021Word版本下载地址（辛辛苦苦... 在本节中，我们表明我们的结果可以扩展到随机策略选择的设置，这在实践中可能是可取的。
强化学习 - 模仿学习（Imitation Learning) and GAIL（Generative Adversarial Imitation Learning）
2025-06-09 17:05

BineHello的博客模块输入输出目标判别器DsaD(s,a)Dsa(s,a)属于专家的概率区分专家 vs 策略策略 π(as)s动作分布模仿专家策略奖励rsar(s,a)rsa判别器输出奖励越高越像专家生成器（策略 π）不断尝试“骗过”判别器 D判别器 D 不断...
强化学习经典算法笔记(十九)：无监督策略学习算法Diversity Is All You Need
2020-07-22 17:44

hhy_csdn的博客 强化学习经典算法笔记19：无监督策略学习算法Diversity Is All You NeedDIAYN核心要点模型定义目标函数的构造DIAYN算法细节目标函数的优化SAC的训练判别器的训练DIAYN的应用论文的其他细节本篇介绍一个无监督框架下...
23、基于深度强化学习的道路车辆排放控制策略
2025-10-01 03:02

mmm90的博客本文提出了一种基于深度强化学习的道路车辆排放控制策略（EFRL模型），通过构建复合排放环境状态空间并应用深度Q网络（DQN）来自动学习最优的交通流量与速度限制策略，有效降低CO、HC、NO和燃料消耗等污染物排放。...
【学习强化学习】十三、模仿学习介绍
2022-03-12 14:32

CHH3213的博客逆强化学习2.1 概述2.2 奖励函数2.2 IRL vs GAN3. 第三人称视角模仿学习4. 练习4.1 keywords 参考资料 https://datawhalechina.github.io/easy-rl/#/chapter11/chapter11 1. 模仿学习概述模仿学习（imitation ...
离线强化学习(Offline RL)系列3: (算法篇) AWAC算法详解与实现
2022-04-27 15:09

@RichardWang的博客而强化学习中动辄几万、几十万的训练步骤，时间成本太高，而且机器人训练过程中还容易损坏，因此很难将在线RL应用于现实世界中的机器人技术问题，这也是强化学习很难落地应用的一个重大原因。但科研还要继续，遇到...
31、元强化学习在视觉导航中的应用与挑战
2025-09-01 01:51

t1u2v的博客本文探讨了元强化学习在视觉导航中的应用与挑战。文章首先介绍了视觉导航的基本概念及其与深度强化学习（DRL）的结合方式，包括直接DRL、分层DRL、多任务DRL、记忆推理DRL以及视觉语言DRL等方法。随后，重点分析了两...
深度强化学习算法之SAC算法
2021-08-04 16:21

小文文是世界上最可爱的的博客深度强化学习算法之SAC（Soft Actor Critic）算法文章地址： Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Soft Actor-Critic Algorithms and ...
强化学习学习（三）收敛性证明与DDPG
2024-07-25 09:21

QinZheng7575的博客 强化学习大多数不是理论收敛的，本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG
【强化学习的数学原理-赵世钰】课程笔记（十）Actor-Critic 方法
2024-04-19 14:49

leaf_leaves_leaf的博客万字长文，环环相扣，详细介绍强化学习的 policy gradient 方法， Actor-Critic 方法和 DPG,DDPG方法，会持续更新
14、强化学习Soft Actor-Critic算法：推导、理解与实战
2024-01-13 11:13

怡步晓心l的博客 deterministic policies：可以通过网络给每个动作的打分，通过贪婪策略选定最高打分的动作执行。on-policy&off-policy：on-policy就是采样的数据和某个策略强绑定，也就是采样的数据只能用于某个策略的训练，策略...
强化学习第五课 —— TRPO 深度剖析：在黎曼流形上寻找最优步长的数学艺术
2025-12-15 22:52

鲨莎分不晴的博客 TRPO 的推导过程是一场数学盛宴：从性能差异引理出发，建立了单调提升的目标。利用 KL 散度构建了黎曼流形上的信赖域约束。通过泰勒展开将非线性约束规划转化为二次规划。引入费雪信息矩阵得到了自然...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月22日

强化学习中的策略梯度算法，$\pi(\theta)$ Π（θ）是一个怎么的函数呢？对应的动作空间是有限的？还是无限的呢？

0条回答 默认 最新

问题事件

0条回答默认最新