DDPG输出的多维动作向量值在0附近

最近在用DDPG算法解决路径规划问题，但是不知道为什么actor网络输出的多维动作向量值总是在0附近大概都是1e-3数量级，而且每个step的变化都不大，导致转换后的动作（比如移动方向、速度、发射功率等）都很小
actor网络的loss值打出来是有在变化的，网络参数也是有变化的，神经网络的输入也得提前调到了同一数量级（1-10），BN层和LN层都尝试加过了，真的调试了好久，也还是不知道到底是哪里出了问题，神经网络模型长这样（加了LN层的），希望有小伙伴可以告诉我还有可能是哪里的问题啊


```python
[array([ 0.00363818,  0.0018692 ,  0.00566376, -0.00982124, -0.01358668],
      dtype=float32), array([ 0.00291705,  0.00226895,  0.00478148, -0.00890055, -0.01326749],
      dtype=float32), array([ 0.01321111, -0.00697791,  0.0161714 , -0.01741296, -0.02361217],
      dtype=float32)]
[array([ 0.00532129,  0.00018366,  0.00718524, -0.01139973, -0.01506326],
      dtype=float32), array([ 0.0043016 ,  0.00165614,  0.00569433, -0.0099882 , -0.01458266],
      dtype=float32), array([ 0.01287621, -0.00733752,  0.01562952, -0.01715881, -0.02311403],
      dtype=float32)]
[array([ 0.00528781,  0.00021858,  0.00714553, -0.01137979, -0.01502699],
      dtype=float32), array([ 0.00429485,  0.00165806,  0.00569154, -0.00998067, -0.01457683],
      dtype=float32), array([ 0.01285914, -0.00732083,  0.01560804, -0.01715397, -0.02309367],
      dtype=float32)]
[array([ 0.00401041,  0.00186404,  0.00624963, -0.00991879, -0.01420762],
      dtype=float32), array([ 0.00283949,  0.00227825,  0.00515016, -0.00914116, -0.01310303],
      dtype=float32), array([ 0.01349892, -0.0071977 ,  0.01686332, -0.01759761, -0.02409484],
      dtype=float32)]
[array([ 0.00400529,  0.00187367,  0.00623996, -0.00991626, -0.01420152],
      dtype=float32), array([ 0.00282853,  0.0022863 ,  0.00514006, -0.00913269, -0.0130916 ],
      dtype=float32), array([ 0.01344847, -0.00715144,  0.01680301, -0.01756832, -0.02403875],
      dtype=float32)]



```python

class MLPNetwork(nn.Module):
    """
    MLP network (can be used as value or policy)
    """
    def __init__(self, input_dim, out_dim, hidden_dim1=128, hidden_dim2=64, nonlin=F.relu,
                 constrain_out=False, norm_in=False, discrete_action=True):
        """
        Inputs:
            input_dim (int): Number of dimensions in input
            out_dim (int): Number of dimensions in output
            hidden_dim (int): Number of hidden dimensions
            nonlin (PyTorch function): Nonlinearity to apply to hidden layers
        """
        super(MLPNetwork, self).__init__()

        if norm_in:  # normalize inputs
            self.in_fn = nn.BatchNorm1d(input_dim)  # 批归一化
            self.in_fn.weight.data.fill_(1)
            self.in_fn.bias.data.fill_(0)
        else:
            self.in_fn = lambda x: x

        # 层归一化
        self.fc1 = nn.Linear(input_dim, hidden_dim1)
        self.ln1 = nn.LayerNorm(hidden_dim1)
        self.fc2 = nn.Linear(hidden_dim1, hidden_dim2)
        self.ln2 = nn.LayerNorm(hidden_dim2)
        self.fc3 = nn.Linear(hidden_dim2, out_dim)

        self.nonlin = nonlin

        if constrain_out and not discrete_action:
            # initialize small to prevent saturation
            self.fc3.weight.data.uniform_(-3e-3, 3e-3)
            self.fc3.bias.data.uniform_(-3e-3, 3e-3)
            self.out_fn = torch.tanh
        else:  # logits for discrete action (will softmax later)
            self.out_fn = lambda x: x

    def forward(self, X):
        """
        Inputs:
            X (PyTorch Matrix): Batch of observations
        Outputs:
            out (PyTorch Matrix): Output of network (actions, values, etc)
        """

        h1 = self.nonlin(self.ln1(self.fc1(self.in_fn(X))))
        h2 = self.nonlin(self.ln2(self.fc2(h1)))
        out = self.out_fn(self.fc3(h2))

        return out

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-04-04 03:08
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
你可以看下这个问题的回答https://ask.csdn.net/questions/734740
这篇博客你也可以参考下：原语,中断、异常和系统调用的关系，中断的分类，系统调用和过程调用，常见系统调用
除此之外, 这篇博客: 【并发编程】--- 并发编程中的可见性、原子性、有序性问题中的 3.2 有序性问题产生的原因 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

其实通过分析已经可以知道，之所以出现3.1中的问题，就是因为代码出现了重排序问题，为什么代码会进行重排序呢？

通过下图可以看到，重排序后可以明显减少代码的指令 — 》指令减少了，速度也就快了
也就是说重排序可以提高代码的处理速度。

其实我们写的代码到最终的执行指令，一般会涉及到三种重排序：

（1）编译器优化的重排序。编译器在不改变单线程程序语义的前提下，可以重新安排语句的执行顺序;
（2）指令级并行的重排序。现代处理器采用了指令级并行技术（Instruction-LevelParallelism，ILP）来将多条指令重叠执行。如果不存在数据依赖性，处理器可以改变语句对应机器指令的执行顺序。
（3）内存系统的重排序。由于处理器使用缓存和读/写缓冲区，这使得加载和存储操作看上去可能是在乱序执行的。

这时候，我想你一定像我刚知道这些时一样疑惑：
（1）我平时写代码没感觉到它进行过重排序啊；
（2）多线程情况下，如果每个线程都可能会发生重排序问题，那为了能写出按照我们的意愿执行的代码，那我们写代码时得考虑多少问题啊。。。

但是实际上以我们的开发经验来说，我们并不需要考虑这么多，这是为什么呢？？？
其实很简单，就是JMM规定了一些不可进行重新排序的规则，对此我们或许并不知道，但其实已经受益于这些规则了 —>　即happens-before规则 —> 抽空再好好对happens-before整理一下。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

神经网络输出的多维向量的值总感觉怪怪的 python 机器学习神经网络
2023-02-20 17:11

回答 2 已采纳你是用什么数据训练你的模型？看输出结果都是 0.5，似乎模型根本就没有训练。
神经网络输出多维向量的值都一样是什么问题呀 python 机器学习神经网络
2023-02-19 11:33

回答 2 已采纳检查输入数据是否正确：确保您的输入数据已经被正确地预处理和标准化，使其能够适应网络的要求。还要确保您的输入数据与您的问题域相匹配。检查网络结构：确认您的神经网络结构是否正确并满足您的问题要求。特别是
python求多维向量余弦值 python
2022-09-16 03:58

回答 2 已采纳计算结果远大于1还是非常接近于1？如果是后者，我猜可能是浮点数累计误差造成的。计算向量余弦的算法，貌似是正确的，但代码有很多值得商榷之处，比如： python内置pow函数，无需从math导入；pyt
AI架构师必知必会系列：强化学习在金融领域的应用
2023-12-05 01:14

光剑书架上的书的博客在金融领域，如何制定最优决策以实现收益最大化和风险最小化一直是一个核心问题。传统的金融决策方法主要依赖于统计模型和专家经验,但在面对日益复杂多变的金融市场时,这些方法往往难以适应和优化。近年来,随着人工...
创建并输出一个多维数组 python
2022-03-03 09:52

回答 1 已采纳 data_list = [] for i in range(10): user = input("创建用户，输入用户名") items = [n for n in input("输入1
js拼接三个多维数组，把里面相同的值加在一起 javascript
2022-03-22 11:21

回答 2 已采纳 // 放入二维数组（可放入多个），例如：mixArr(arr1,arr2,arr3) function mixArr() { let allArr = [];
Clion调试时如何查看多维数组元素值 c语言
2022-11-11 15:40

回答 1 已采纳 C语言中，二维数组的指针需要知道每行有多少个元素，这样指针在++的时候才能知道要跨过多少个字节的内存虽然没有用过CLion，但这里应该是指每行有多少个元素
本文将围绕人工智能发展的三个阶段——智能、认知、交互，分别介绍人工智能的起源、主要研究方向以及前沿技术发展
2023-08-25 12:22

光剑书架上的书的博客随着技术的不断更新迭代，自然语言处理、计算机视觉、机器学习、深度学习等领域技术正在飞速发展。但是由于这些技术涉及到许多计算机基础概念、算法原理和实际应用场景，因此对于初学者来说并不是那么容易上手的。而...
多维数组一维展开输出，包成函数 python
2023-01-10 19:06

回答 1 已采纳可以使用 Python 的嵌套列表推导 (nested list comprehension) 来生成这样的列表。你可以定义一个函数，接收两个参数，一个是行数 m，另一个是列数 n，然后返回一个嵌
按键值在数组中进行多维搜索[PHP] php
2017-10-05 16:51

回答 1 已采纳 A simple "if" statement will do : <?php $videoId = "EJOnwF8mgXc"; parse_str(file_get_contents(
在PHP中设置多维数组对象中的键和值 php
2018-08-30 10:50

回答 3 已采纳 You will need to access down to the lowest subarray where the name key resides. The first level k
自动模型压缩与架构搜索：飞桨PaddleSlim最全解读
2019-07-11 17:51

飞桨PaddlePaddle的博客近年来，深度学习技术在很多方向都取得了巨大的成功，但由于深度神经网络计算复杂度高，模型参数量大，限制了其在一些场景和设备上进行部署，特别是在移动嵌入式设备的部署。因此，模型小型化技术成为最近几年学术界...
在Golang中创建多维嵌套地图切片
2017-07-25 12:02

回答 1 已采纳 Slices in Go are dynamically-sized, you shouldn't treat them like arrays. In the first loop don't
「LSTM 之父」亲笔万字长文，只为向世人证明：深度学习不是在母语为英语的地方被发明的
2019-11-12 12:56

喜欢打酱油的老鸟的博客导语：最重要的并不是谁发明了某项技术，而是技术本身对于人类文明发展所...在人们感慨人工智能迎来春天的同时，也有人为「LSTM 之父」Jürgen Schmidhuber 未能分享这份荣誉而感到遗憾。事实上，除了 LSTM 之外，深...
「LSTM 之父」亲笔万字长文，只为向世人证明：深度学习不是在母语为英语的地方被发明的...
2019-11-18 18:00

Datawhale的博客放眼于以英语为主导的学术圈，我们往往不能看清一个事实——深度学习是在官方语言不是英语的地方被发明的。」对我们中国（当前人工智能研究领域最大非英语为母语地区）的人们来说，似乎尤其应当认识到这点。 Jü...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月3日

悬赏问题

¥200 csgo2的viewmatrix值是否还有别的获取方式
¥15 Stable Diffusion，用Ebsynth utility在视频选帧图重绘，第一步报错，蒙版和帧图没法生成，怎么处理啊
¥15 请把下列每一行代码完整地读懂并注释出来
¥15 pycharm运行main文件，显示没有conda环境
¥15 易优eyoucms关于二级栏目调用的问题
¥15 寻找公式识别开发，自动识别整页文档、图像公式的软件
¥15 为什么eclipse不能再下载了？
¥15 编辑cmake lists 明明写了project项目名，但是还是报错怎么回事
¥15 关于#计算机视觉#的问题：求一份高质量桥梁多病害数据集
¥15 特定网页无法访问，已排除网页问题

DDPG输出的多维动作向量值在0附近

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新