强化学习中，神经网络输入序列a，与输入由a中元素加减变换过来的b，网络训练完成后，两者的输出大相径庭

多智能体强化学习中，假设3个球0-1-2，环境返回的状态是，球0:球0坐标，（球1坐标-球0坐标），（球2坐标-球0坐标）。
当我把状态改为:球0坐标，球1坐标，球2坐标。

两者作为状态输入，训练50万次后，奖励值曲线，前者明显高于后者。
why?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
天夏共创 2023-04-11 15:04
关注
在多智能体强化学习中，状态的设计对于训练效果具有重要影响。根据您所提供的信息，我认为前者设计的状态更具有代表性和信息量，因此在训练过程中产生了更好的效果。

在前者的状态表示中，每个球的坐标都是相对于球0的位置，这意味着球0的位置对整个状态的描述至关重要。在一个多智能体系统中，每个智能体的行为和状态都会受到其他智能体的影响，而球0的位置则可以作为参考点来衡量其他球之间的相对位置和运动情况。同时，球1和球2与球0之间的向量也提供了额外的信息，使得状态更加丰富和详尽。

相比之下，后者的状态表示中只包含每个球的绝对坐标，缺乏球与球之间的相对位置和运动信息。这可能导致智能体无法有效地感知和应对其他智能体的行为，从而导致训练效果较差。

总之，在设计多智能体强化学习的状态时，需要考虑智能体之间的交互和影响，并选择最具代表性和信息量的状态表示方式。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

神经网络预测时间序列的学习路线  机器学习神经网络
2022-04-19 17:19

回答 1 已采纳不了解你已经做的情况，只能笼统的给你一些建议：1、神经网络，机器学习，易学难精。对于你的情况，不需要数学知识。2、按照你的描述，坦率的说，不需要做神经网络的技术研究，只要使用形成的方法，例程，根据你的
paddle 卷积神经网络训练时报错InvalidArgumentError: The input tensor X of SumOp must have same shape.. paddle 深度学习神经网络
2022-03-24 03:18

回答 1 已采纳你传入的张量是252，2但需要的是21，2考虑使用reshape把维度变化一下飞桨的框架我没用过，pytorch是这么操作的，你搜一搜类似的改变张量shape的函数
时间序列中，神经网络最后一层的含义是什么？ python 机器学习深度学习
2023-03-09 09:25

回答 2 已采纳 “Devil组”引证GPT后的撰写：最后一层的神经网络是一个 Dense 层，其中 arg.units_last 是整数，代表这一层的神经元数量，也就是输出的维度。如果 arg.units_last
《神经网络与深度学习》—学习笔记
2020-06-17 17:02

studyeboy的博客 [神经网络与深度学习] [nndl-book] 深度学习基础深度学习是机器学习的一个分支，是指一类问题以及解决这类问题的方法。深度学习问题是一个机器学习问题，指从有限样例中通过算法总结出一般性的规律，并可以应用到...
MATLAB中BP神经网络训练 matlab
2023-02-28 00:49

回答 2 已采纳可以将输入为复数序列的神经网络转换为接受实数特征的神经网络，将复数序列的实部和虚部分别拆分为两个实数特征输入神经网络。在训练期间，网络会学习到如何将这两个实数特征组合成复数，从而可以得到复数序列的输出
关于#深度学习#的问题：怎么将氨基酸序列数据处理后经过图神经网络进行分类(语言-python) python 分类深度学习
2023-03-18 16:25

回答 3 已采纳参考GPT和自己的思路：对于将氨基酸序列数据处理后经过图神经网络进行分类的问题，可以按照以下步骤进行：将氨基酸序列转换为图结构将氨基酸序列转换为图结构是将氨基酸序列数据处理后进行分类的第一步。可
keras下用RNN中的lstm来进行图片分类，输入维数的错误 python tensorflow 人工智能深度学习神经网络
2020-04-26 15:07

回答 1 已采纳 lstm做图片分类？一般来说CNN才用来做图片分类。 model.add(LSTM(units=nb_lstm_outputs, return_sequences=True,
台湾大学神经网络架构设计
2022-08-17 12:24

aifans_bert的博客 DBNs并没有明确地处理对观察变量的时间联系的学习上，虽然目前已经有这方面的研究，例如堆叠时间RBMs，以此为推广，有序列学习的dubbedtemporalconvolutionmachines，这种序列学习的应用，给语音信号处理问题带来了...
用BP神经网络进行预测，loss比较小，但预测值跟实际值相差较大，怎么办 keras python 有问必答神经网络
2021-07-19 21:04

回答 1 已采纳首先怀疑过拟合, 减少迭代次数, 像这种非常简单的数据拟合, 完全不需要200这么大的周期, 一般30-50个足够
数字序列样本用什么网络处理有助于分类呀？人工智能有问必答深度学习神经网络
2021-03-31 10:46

回答 3 已采纳使用lstm网络进行序列预测
已知入队序列为{A,B,C,D}，有几种出队序列？ c语言数据结构
2022-05-23 19:26

回答 3 已采纳如果这个队列是一个普通队列，就只有DCBA这一个顺序，但是如果队列时一个循环队列就不一定了
论文翻译-A Comprehensive Survey on Graph Neural Networks《图神经网络GNN综述》
2019-01-31 23:48

李滚滚的博客文章目录1 简介1.1 GNN简史1.2 GNN的相关研究1.3 GNN vs 网络嵌入1.4 文章的创新型2 定义3 分类和框架3.1 GNNs分类3.2 框架4 图卷积网络4.1 基于光谱的GCN4.1.1 背景4.1.2 基于光谱的GCN方法4.1.3 总结4.2 基于空间...
在神经网络搭建里后缀一个(x)是什么 keras python 神经网络
2022-09-05 14:20

回答 1 已采纳 a=b()(x)这看起来很怪吗如果你知道函数b的返回值是一个函数，像这样def b(): def c(): ... return c还怪吗b()，其实就是cb()(x)其实就是c(x
[论文翻译]-A Comprehensive Survey on Graph Neural Networks《图神经网络GNN综述》
2019-08-24 22:09

不务正业的土豆的博客，它旨在将网络中的节点表示成低维、实值、稠密的向量形式，使得得到的向量形式可以在向量空间中具有表示以及推理的能力，同时可轻松方便的作为机器学习模型的输入，进而可将得到的向量表示运用到社交网络中常见的...
【论文翻译】A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects
2022-02-23 18:46

虎克船长AL的博客卷积神经网络(CNN)是深度学习领域最重要的网络之一。由于 CNN 在许多领域取得了令人瞩目的成就，包括但不限于计算机视觉和自然语言处理，它在过去几年中引起了业界和学术界的广泛关注。现有的评论主要集中在 CNN ...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

强化学习中，神经网络输入序列a，与输入由a中元素加减变换过来的b，网络训练完成后，两者的输出大相径庭

1条回答 默认 最新

悬赏问题

1条回答默认最新