用基于模型的DDPG强化学习算法控制调节三个比例系数，agent采用DDPG算法，agent动作输出设置为31的矩阵，但是仿真结果只显示11，无法直接控制三个

问题：用基于模型强化学习调节控制系统的三个比例系数，agent采用DDPG算法，agent的动作输出设置为3×1的矩阵，但是仿真结果只显示1×1，无法直接控制三个比例系数，程序和simulink图如下所示，请问如何解决呢？

#代码

%% SET UP ENV自定义环境模型
%create the action info
numAct = 3;
actionInfo = rlNumericSpec([numAct 1],...
    'LowerLimit',[-Inf -Inf -Inf]',...
    'UpperLimit',[-Inf -Inf -Inf]');
actionInfo.Name = 'action';
%Create the observation info
numObs = 7;
observationInfo = rlNumericSpec([numObs 1],...
    'LowerLimit',-Inf,...
    'UpperLimit',Inf);
observationInfo.Name = 'observation';

%Environment
mdl = 'hybridpowersystemRL1';
open_system(mdl);
env = rlSimulinkEnv(mdl,[mdl '/RL Agent'],observationInfo,actionInfo);
%%这样就会在simulink模型文件中绑定agent模块了，接下来就是设置agent参数
% %
numObs = observationInfo.Dimension(1);
%% 设置仿真时间Tf和智能体采样时间Ts
Ts = 0.02;
Tf = 25;
%为复现结果，固定随机生成器种子
rng(0)
%% 初始化agent CREATE DDPG NETWORKS
%定义具有两个输入（观测量和动作）和一个输出（价值）的神经网络，

statePath = [
    imageInputLayer([numObs 1 1],'Normalization','none','Name',...
    'observation')
    fullyConnectedLayer(128,'Name','CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(200,'Name','CriticStateFC2')];
actionPath = [
    imageInputLayer([numAct 1 1],'Normalization','none','Name','action')
    fullyConnectedLayer(200,'Name','CriticActionFC1','BiasLearnRateFactor',0)];
commonPath = [
    additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu')
    fullyConnectedLayer(1,'Name','CriticOutput')];

% Connect the layer graph
criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork,actionPath);
criticNetwork = addLayers(criticNetwork,commonPath);
criticNetwork = connectLayers(criticNetwork,'CriticStateFC2','add/in1');
criticNetwork = connectLayers(criticNetwork,'CriticActionFC1','add/in2');

%查看网络结构
figure
plot(criticNetwork)
criticOptions = rlRepresentationOptions('LearnRate',1e-03,'GradientThreshold',1);
critic = rlRepresentation(criticNetwork,obsInfo,actInfo,...
    'Observation',{'observation'},'Action',{'action'},criticOptions);
% if useGPU
%    criticOptions.UseDevice = 'gpu'; 
% end
                      
%% ACTOR 动作网络结构
%定义一个具有一个输入（状态或观测量）和一个输出（动作）的神经网络，决定采取动作

actorNetwork = [
    imageInputLayer([numObs 1 1],'Normalization','none','Name',...
    'observation')
    fullyConnectedLayer(128,'Name','ActorFC1')
    reluLayer('Name','ActorRelu1')
    fullyConnectedLayer(200,'Name','ActorFC2')
    reluLayer('Name','ActorRelu2')
    fullyConnectedLayer(1,'Name','ActorFC3')
    tanhLayer('Name','ActorTanh1')
    scalingLayer('Name','ActorScaling','Scale',max(actInfo.UpperLimit))];
actorOptions = rlRepresentationOptions('LearnRate',5e-04,'GradientThreshold',1);
actor = rlRepresentation(actorNetwork,obsInfo,actInfo,...
    'Observation',{'observation'},'Action',{'ActorScaling'},actorOptions);

%% 设置训练参数
%% DDPG Agent Options
agentOptions = rlDDPGAgentOptions;
agentOptions.SampleTime = Ts;%采样时间
agentOptions.DiscountFactor = 0.99;%折扣因子
agentOptions.MiniBatchSize = 128;
agentOptions.ExperienceBufferLength = 5e5;
agentOptions.TargetSmoothFactor = 1e-3;
agentOptions.NoiseOptions.MeanAttractionConstant = 5;%随机化探索
agentOptions.NoiseOptions.Variance = 0.5;
agentOptions.NoiseOptions.VarianceDecayRate = 1e-5;
%% Training Options

maxepisodes = 2000;
maxsteps = ceil(Tf/Ts);
trainingOptions = rlTrainingOptions(...
    'MaxEpisodes',maxepisodes,...
    'MaxStepsPerEpisode',maxsteps,...
    'ScoreAveragingWindowLength',5,...
    'Verbose',false,...
    'Plots','training-progress',...
    'StopTrainingCriteria','AverageReward',...
    'StopTrainingValue',400,...
    'SaveAgentCriteria','EpisodeReward',...
    'SaveAgentValue',400);

% trainingOptions = rlTrainingOptions;
% trainingOptions.MaxEpisodes =1000;
% trainingOptions.MaxStepsPerEpisode = Tf/Ts;
% trainingOptions.ScoreAveragingWindowLength = 1000;
% trainingOptions.StopTrainingCriteria = 'AverageReward';
% trainingOptions.StopTrainingValue = 110;
% trainingOptions.SaveAgentCriteria = 'EpisodeReward';
% trainingOptions.SaveAgentValue = 150;
% trainingOptions.Plots = 'training-progress';
% trainingOptions.Verbose = true;
% if useParallel
%     trainingOptions.Parallelization = 'async';%异步
%     trainingOptions.ParallelizationOptions.StepsUntilDataIsSent = 32;%每32个时间步发送给代理;
% end
%% 并行学习设置
trainingOptions.UseParallel = true;
trainingOptions.ParallelizationOptions.Mode = "async";
trainingOptions.ParallelizationOptions.DataToSendFromWorkers = "Experiences";
trainingOptions.ParallelizationOptions.StepsUntilDataIsSent = -1;
%% 训练
agent = rlDDPGAgent(actor,critic,agentOptions);
trainingStats = train(agent,env,trainingOptions);
%% SAVE AGENT
reset(agent); % Clears the experience buffer
curDir = pwd;
saveDir = 'savedAgents';
cd(saveDir)
save(['trainedAgent' datestr(now,'mm_DD_YYYY_HHMM')],'agent');
save(['trainingResults' datestr(now,'mm_DD_YYYY_HHMM')],'trainingResults');
cd(curDir)
%% 结果展示验证训练好的仿真，可以在仿真中对环境和智能体的组合模型仿真
simOptions = rlSimulationOptions('MaxSteps',500);%创建默认选项集
experience = sim(env,agent,simOptions);
totalReward = sum(experience.Reward);
% bdclose(mdl)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

用BP算法完成3个输入，3个隐含，2个输出的神经网络模型的所有参数更新过程深度学习神经网络
2021-05-18 22:18

回答 1 已采纳 https://blog.csdn.net/qq_22475211/article/details/88815457?spm=1001.2014.3001.5502 这是我写的一个bp反向推导你可以
如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
三个输入量，一个输出量，有70组数据，拟合系数最小二乘法算法
2022-05-19 15:22

回答 1 已采纳最小二乘法实验c语言实现,最小二乘法拟合C语言实现_匡雪婷的博客-CSDN博客拟合直线#include #include #includ
如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
2023-07-14 15:17

汀、人工智能的博客如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
c语言算法解决输入输出控制 c语言算法
2023-03-02 20:53

回答 10 已采纳参考GPT和自己的思路，以下是用C语言编写的算法解决输入输出控制的代码实现： #include <stdio.h> int main() { char c; unsign
如何用Matlab建立一个五维矩阵,并且为每个自变量设置定义域？ matlab 有问必答算法
2022-06-30 01:36

回答 2 已采纳这个好做啊，可以用ndgrid这样写 [x1,x2,x3,x4,x5] = ndgrid(0:1:5, 0:1:4, 0:1:3, 0:1:2, 0:1:1); 跟meshgrid含义用法是一样的
如何实现如何使用随机搜索算法对informer模型进行调参？ python 学习方法算法
2023-03-15 17:03

回答 1 已采纳参考GPT和自己的思路：非常感谢您的提问。针对如何使用随机搜索算法对informer模型进行参数调整，我建议您参考以下步骤：首先，确定需要调整的参数。确定哪些参数是可以被调整的，比如学习率、隐层节
深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类
2023-02-13 22:03

行至为成的博客简单介绍深度强化学习的基本概念，常见算法、流程及其分类（持续更新中），方便大家更好的理解、应用强化学习算法，更好地解决各自领域面临的前沿问题。欢迎大家留言讨论，共同进步。
关于#深度学习#的问题：用adaboost或者xgboost算法把pytorch上的三个网络集成 pytorch 深度学习神经网络
2023-02-19 15:19

回答 1 已采纳对于集成多个PyTorch模型，可以使用以下步骤： 1.定义数据集并进行数据预处理。 2.分别定义和训练每个模型。可以使用不同的超参数和损失函数来训练每个模型以提高模型的多样性。 3.在每个模型上进行
统计学习方法三要素中模型和算法的区别算法
2018-02-24 13:24

回答 4 已采纳个人理解（还请多多指教）：模型相当于特定的分类器集合；策略相当于评价函数，用于判断分类器的优劣；而算法相当于一个用于在假设空间中找到评价函数得分最高的分类器的搜索算法。举例说明，模型如支持向量
c语言，修改基于第一个图的旧算法算法以解决新的问题，并将新算法用于最后一张图 c语言数据结构算法
2023-03-16 15:14

回答 3 已采纳基于最新版ChatGPT4的回答，望采纳!!!有其他问题也可以询问我哦、”(最新版更智能，功能更加强大) 为了解决这个问题，我们需要修改Dijkstra算法，使其最大化概率乘积而不是最小化权重和。我们
深度强化学习的相关概念和发展趋势，并介绍DQN、DDPG、A3C、PPO等经典算法
2023-08-07 01:09

禅与计算机程序设计艺术的博客 1990年，基于Monte Carlo方法的Q-learning发明者William McAllister提出了一种通过在行动选择方面采用树搜索的方法的动态规划方法，即“深度强化学习”。1993年，李宏毅等人首次提出DDPG(Deep Deterministic Policy ...
你好，请教这篇文章中的问题 “学习日记arduino如何使用PID控制算法” 算法
2021-08-12 18:32

回答 2 已采纳程序里的input和output都是整型数，分别表示被控参数和控制器输出，可以是百分比表示的输入和输出，能够直接做加法。至于题主说的input代表编码器的脉冲数量，output代表pwm脉冲，需要另外
[强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想
2021-11-05 11:21

苏轼'的博客 [强化学习]一文带你理清从Q-Learning到DDPG(Deep Deterministic Policy Gradient)算法思想 强化学习的五大要素： State、Action、Reward、Discount factor （r）、P 转移概率。 Q-Learning思想过程 Q-learning是...
强化学习（2）--- 基于价值函数的强化学习算法
2023-12-18 15:45

Be No.1的博客基于价值函数的强化学习算法
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月18日

悬赏问题

¥15 有赏，i卡绘世画不出
¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码

用基于模型的DDPG强化学习算法控制调节三个比例系数，agent采用DDPG算法，agent动作输出设置为3*1的矩阵，但是仿真结果只显示1*1，无法直接控制三个

0条回答 默认 最新

问题事件

悬赏问题

用基于模型的DDPG强化学习算法控制调节三个比例系数，agent采用DDPG算法，agent动作输出设置为31的矩阵，但是仿真结果只显示11，无法直接控制三个

0条回答默认最新