麦兜没有冬天 2022-11-07 18:03 采纳率: 33.3%
浏览 6
已结题

AC算法中Actor输出动作与环境中的动作有啥关系啊

AC算法
输入端是状态,只是经过网络输出的是符合动作维度的一组向量,然后用softmax转换成概率,这是怎么把它和环境中的动作联系起来的?环境中的动作和这个状态有啥关系啊
Actor网络结构如下

class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return F.softmax(self.fc2(x), dim=1)

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 11月15日
    • 创建了问题 11月7日

    悬赏问题

    • ¥15 数据库原理及应用上机练习题
    • ¥30 征集Python提取PDF文字属性的代码
    • ¥15 如何联系真正的开发者而非公司
    • ¥15 有偿求苍穹外卖环境配置
    • ¥15 代码在keil5里变成了这样怎么办啊,文件图像也变了,
    • ¥20 Ue4.26打包win64bit报错,如何解决?(语言-c++)
    • ¥15 clousx6整点报时指令怎么写
    • ¥30 远程帮我安装软件及库文件
    • ¥15 关于#自动化#的问题:如何通过电脑控制多相机同步拍照或摄影(相机或者摄影模组数量大于60),并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
    • ¥20 (求远程解决)深信服vpn-2050这台设备如何配置才能成功联网?