AC算法中Actor输出动作与环境中的动作有啥关系啊

AC算法
输入端是状态，只是经过网络输出的是符合动作维度的一组向量，然后用softmax转换成概率，这是怎么把它和环境中的动作联系起来的？环境中的动作和这个状态有啥关系啊
Actor网络结构如下

class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return F.softmax(self.fc2(x), dim=1)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

强化学习中，对于连续状态空间和高维动作空间，采用什么方法？深度学习
2021-07-22 22:04

回答 1 已采纳分层强化学习
HTTP处理程序中actor模式的好处
2018-03-17 21:48

回答 1 已采纳 The benefits are not to a single call but to the sum of all calls. For example you can use this t
删除JSON输出列表中的最后一个逗号 json php
2018-02-06 09:11

回答 4 已采纳 Use Below code it will work for you. $urls_actors = amy_movie_get_movie_taxomony3( $post->ID,
【强化学习】Actor-Ctiric算法基本原理和pytorch代码详解
2024-02-21 15:43

UQ_rookie的博客本文讲解了AC算法和代码实现
如何使用MySQL中的关系将文本字符串批量转换为唯一ID database mysql php
2017-06-22 16:48

回答 1 已采纳 Something like this will sort of work: For each record Do Select from genre table usi
Yii2中的功能测试与代码获得404错误 php
2018-04-16 09:44

回答 1 已采纳 I solved this problem by changing url: v1/ to url: /v1 or removing it.
java中JDBC连接数据库遇到问题 java
2023-03-13 13:33

回答 4 已采纳数据库字符集编码是什么格式呢，连接后边加个编码格式试试 characterEncoding=utf-8什么的
Task04: 演员-评论家算法（Actor-Critic）
2022-09-01 11:44

MickWang1942的博客介绍AC算法及其变形。
我利用torch搭建了一个神经网络但是需要神经网络的输出控制在0-1之间训练后发生了梯度消失 python 人工智能神经网络
2021-04-25 02:16

回答 1 已采纳 1. 把loss函数也放出来看看 2. 先把中间的sigmoid改成Relu（或者其他变种），最后一层使用sigmoid
神经网络输出多维向量的值都一样是什么问题呀 python 机器学习神经网络
2023-02-19 11:33

回答 2 已采纳检查输入数据是否正确：确保您的输入数据已经被正确地预处理和标准化，使其能够适应网络的要求。还要确保您的输入数据与您的问题域相匹配。检查网络结构：确认您的神经网络结构是否正确并满足您的问题要求。特别是
如何将我的变量存储在yaml文件中？ php
2019-07-04 13:01

回答 1 已采纳 If you want to use YAML in PHP, you need to install the extension with PECL: pecl install yaml
基础算法篇（六），基于AC框架的PPO算法
2020-09-01 16:06

samurasun的博客我们上一章给大家介绍了经典的策略梯度（PG）算法，但这个经典算法存在两个问题：一是需要完整序列我们根据强化学习的目标“最大化总收益”而得到的公式中包含R(τ)=∑t=1TrtR\left(\tau\right)=\sum_{t=1}^Tr_...
如何在结构类型中处理nil结构变量
2019-05-03 08:14

回答 2 已采纳 The json.Marshaler interface can be implemented to customize JSON encoding, and the json.Unmarshal
ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT
2023-01-15 22:01

v_JULY_v的博客一方面，对于想了解ChatGPT背后原理和如何发展而来的，逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法，最后再到instructGPT、ChatGPT、SeqGAN 且本文之前，99%的文章都不会把PPO算法从头推到尾，本文会把PPO从零推到...
大模型算法岗位面试真题汇总：含实习机会，建议收藏！
2024-08-13 10:33

AI大模型-王哥的博客节前技术群邀请了一些参加大模型面试（含实习）的同学，分享他们面试算法工程师(大模型方向)的宝贵经验。今天我继续整理，分享给大家，希望对后续找工作的有所帮助。更多技术细节&面试经验，可以加入我们星球。
论文笔记之TD3算法
2021-01-18 21:16

Ton10的博客 TD3：Twin Delayed Deterministic Policy Gradient，是DDPG的一种优化算法。 DDPG存在的问题：对超参数敏感，不同的超参数设置会产生不同的效果。 DDPG会产生Q值过估计的问题，我们知道Q值是很重要的，他影响着...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月7日

悬赏问题

¥15 数据库原理及应用上机练习题
¥30 征集Python提取PDF文字属性的代码
¥15 如何联系真正的开发者而非公司
¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 （求远程解决）深信服vpn-2050这台设备如何配置才能成功联网？

AC算法中Actor输出动作与环境中的动作有啥关系啊

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新