基于强化学习的控制系统仿真（相关搜索：强化学习）

目前正在做基于DDPG算法的双有源全桥dcdc变换器的调制策略，目前程序可以运行，但是action不会根据reward的变化而变化


```c
% 打开模型
open_system('SPSDAB')
%设置观测信息
obsInfo = rlNumericSpec([3 1],...
    'LowerLimit',[-inf -inf 0]',...
    'UpperLimit',[inf inf inf]');
obsInfo.Name = 'observations';
obsInfo.Description = 'integrated error, error, and measured height';
numObservations = obsInfo.Dimension(1);

% 设置动作信息
actInfo = rlNumericSpec([1 1]);
actInfo.Name = 'Transfer ratio';
numActions = actInfo.Dimension(1);

% 创建环境对象
env = rlSimulinkEnv('SPSDAB','SPSDAB/RL Agent',...
    obsInfo,actInfo);
env.ResetFcn = @(in)localResetFcn(in);

Ts = 1.0;
Tf = 200;
rng(0)

% 定义评论网络结构
statePath = [
    featureInputLayer(numObservations,'Normalization','none','Name','State')
    fullyConnectedLayer(64,'Name','CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(32,'Name','CriticStateFC2')];
actionPath = [
    featureInputLayer(numActions,'Normalization','none','Name','Action')
    fullyConnectedLayer(32,'Name','CriticActionFC1')];
commonPath = [
    additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu')
    fullyConnectedLayer(1,'Name','CriticOutput')];

criticNetwork = layerGraph();
criticNetwork = addLayers(criticNetwork,statePath);
criticNetwork = addLayers(criticNetwork,actionPath);
criticNetwork = addLayers(criticNetwork,commonPath);
criticNetwork = connectLayers(criticNetwork,'CriticStateFC2','add/in1');
criticNetwork = connectLayers(criticNetwork,'CriticActionFC1','add/in2');

% 定义评论网络选项
criticOpts = rlRepresentationOptions('LearnRate', 1e-03, 'GradientThreshold', 1);
critic = rlQValueRepresentation(criticNetwork, obsInfo, actInfo, 'Observation', {'State'}, 'Action', {'Action'}, criticOpts);

% 定义演员网络结构
actorNetwork = [
    featureInputLayer(numObservations, 'Normalization', 'none', 'Name', 'State')
    fullyConnectedLayer(64, 'Name', 'actorFC1')
    reluLayer('Name', 'actorRelu1')
    fullyConnectedLayer(32, 'Name', 'actorFC2')
    reluLayer('Name', 'actorRelu2')
    fullyConnectedLayer(numActions, 'Name', 'Action')
    ];

% 演员网络选项
actorOptions = rlRepresentationOptions('LearnRate', 1e-04, 'GradientThreshold', 1);
actor = rlDeterministicActorRepresentation(actorNetwork,obsInfo,actInfo,'Observation',{'State'},'Action',{'Action'},actorOptions);

% 定义代理对象选项
agentOpts = rlDDPGAgentOptions(...
    'SampleTime',Ts,...
    'TargetSmoothFactor',1e-3,...
    'DiscountFactor',1.0, ...
    'MiniBatchSize',128, ...
    'ExperienceBufferLength',1e6); 
agentOpts.NoiseOptions.Variance = 0.3;
agentOpts.NoiseOptions.VarianceDecayRate = 1e-5;

agent = rlDDPGAgent(actor, critic, agentOpts);

maxepisodes = 5000;
maxsteps = ceil(Tf/Ts);

% 训练选项
trainOpts = rlTrainingOptions(...
    'MaxEpisodes', maxepisodes, ...
    'MaxStepsPerEpisode', maxsteps, ...
    'ScoreAveragingWindowLength', 20, ...
    'Verbose', false, ...
    'Plots', 'training-progress',...
    'StopTrainingCriteria', 'AverageReward',...
    'StopTrainingValue', 800);

doTraining = false;

if doTraining
    % 训练代理
    trainingStats = train(agent, env, trainOpts);
else
    % 加载预训练代理
    load('SPSDABDDPG.mat', 'agent')
end

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-06 16:01
关注
引自免费微信小程序：皆我百晓生

在基于DDPG（Deep Deterministic Policy Gradient）算法的双有源全桥DC-DC变换器调制策略仿真中，action未能随reward变化而优化的问题可能涉及多个方面。以下是针对该问题的潜在解决方案和调试步骤：

检查网络结构与参数：确保DDPG算法中的Actor网络和Critic网络结构正确无误，并且学习率、批大小、神经网络层数和节点数等超参数设置合理。例如：

actor_net = layerGraph([featureInputLayer(num_features), fullyConnectedLayer(hidden_units), ... reluLayer, fullyConnectedLayer(output_units), tanhLayer]); critic_net = layerGraph([featureInputLayer(num_features), fullyConnectedLayer(hidden_units), ... reluLayer, fullyConnectedLayer(hidden_units), reluLayer, ... fullyConnectedLayer(1)]);

此处num_features是状态空间维度，hidden_units是隐藏层节点数，output_units是动作空间维度。

奖励函数设计：确保奖励函数能够有效引导agent学习到期望的调制策略。应根据变换器的实际工作性能指标来设计，如输出电压稳定度、效率、开关频率等。当状态或动作不理想时，应给予负奖励，反之则给予正奖励。

探索与利用平衡：DDPG使用了 Ornstein-Uhlenbeck 过程作为探索噪声，需适当调整其参数，如噪声强度（theta），以保证在探索和利用之间取得良好平衡。

经验回放缓存与批量更新：确认是否正确实现了经验回放缓存（Replay Buffer），并定期从缓冲区中随机抽取样本进行批量更新：

replay_buffer = circularArrayQueue(max_size); ... mini_batch = replay_buffer.getBatch(batch_size); state_mb = mini_batch(:, 1:num_features); next_state_mb = mini_batch(:, num_features+1:end-num_actions); action_mb = mini_batch(:, end-num_actions+1:end-1); reward_mb = mini_batch(:, end); % 或者更复杂的奖励计算 ...

策略更新与目标网络同步：在训练过程中，确保Actor网络和Critic网络的目标网络定期与主网络进行软更新：

target_actor_net = cloneNetwork(actor_net); target_critic_net = cloneNetwork(critic_net); ... updateTargetNetwork(target_actor_net, actor_net, tau); updateTargetNetwork(target_critic_net, critic_net, tau);

其中tau为目标网络更新率。

训练步数与收敛性：可能需要增加训练迭代次数以让模型充分学习和收敛。同时，监测loss曲线和reward曲线有助于判断训练过程是否正常。

请根据实际情况对照上述建议进行排查和修改。由于Matlab环境下的代码实现依赖于具体的库和接口，以上代码仅为示例，具体实现可能需要参考Matlab Reinforcement Learning Toolbox或其他相关库。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

强化学习实现自动驾驶的仿真平台人工智能机器学习自动驾驶
2023-02-28 19:40

回答 1 已采纳对于深度强化学习来实现自动驾驶，可以使用Python语言的TensorFlow和Keras等深度学习框架，它们提供了丰富的API接口，便于开发者更方便地实现相应的功能。此外，还可以使用Unity3D游
在quartus II软件上基于VHDL语言实现八路彩灯的仿真开发语言
2023-03-09 10:53

回答 6 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ以下是基于 VHDL 语言实现八路彩灯的仿真代码： library IEEE; use IEEE.STD_LOGIC_1164.ALL; use IEEE.STD_LOGI
pwm控制策略仿真的搭建学习应该怎么样入门 matlab
2022-11-06 20:26

回答 3 已采纳应该先学理论知识【PWM控制的基本原理】链接：https://baijiahao.baidu.com/s?id=1736384526442860721&wfr=spider&for=pc在学Matla
基于Qlearning强化学习的倒立摆控制系统matlab仿真+程序操作视频
2022-07-02 14:48

2.内容：基于Qlearning强化学习的倒立摆控制系统matlab仿真+程序操作视频 3.用处：用于Qlearning强化学习的倒立摆控制算法编程学习 4.指向人群：本硕博等学习教研使用,企事业简单项目方案验证参考
第一次学习编程仿真，如何入手用matlab实现遗传算法呢 matlab 有问必答算法
2021-10-07 16:12

回答 1 已采纳你可以边学习遗传算法的代码，一边调试你的matlab程序呢，matlab系统学习当然有好处，但是，你首先的工作是把遗传算法代码熟悉了，而不是花太多时间学习matlab编程；基础的matlab代码知识，
求推荐电机控制C语言编程及仿真软件 c语言单片机驱动开发
2022-07-18 15:30

回答 1 已采纳 Keilc51(编程软件) + protues(仿真软件)
Matlab中永磁同步电机控制系统仿真参数设置 matlab
2022-05-21 12:11

回答 2 已采纳系统仿真参数设置中都有哪些因素：主要是个控制环节的PID增益永磁同步电机的额定功率在哪里设置：不存在，因为你的仿真里不存在电机发热这个问题，实际电机额定功率相当程度是受电机的发热和绝缘等级决定的，而
基于强化学习的倒立摆平衡车控制系统simulink建模与仿真
2024-07-04 04:59

我爱C编程的博客基于强化学习的倒立摆平衡车控制系统是一个典型的动态系统控制问题，它通过不断的学习和决策过程，使倒立摆维持在垂直平衡位置，即使受到外力干扰或系统内部噪声影响。奖励 r：每一步给予智能体的反馈，例如，当倒立...
在quartus II软件上基于Verilog HDL语言实现八路彩灯的仿真（用module）开发语言
2023-03-10 01:19

回答 5 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ以下是一个基于Verilog HDL语言实现八路彩灯的仿真，并使用了module模块的例子： module ColorLightController( input
连接数据库的智能电梯控制系统仿真 c语言 mysql sql 有问必答
2021-03-30 20:22

回答 3 已采纳你先说一下你的单片机是否具备网络能力？另外我看你说的员工数据库，那么你员工数据库是什么服务器？MySQL？我建议你标准的做法是先让单片机具备网络能力，如果不具备你就要让单片机先接一个可以可以访问网
r语言程序设计随机游走仿真 r语言
2023-04-06 19:11

回答 3 已采纳引用new bing作答：1 以下是一个对[0,1]上的随机游走进行一次仿真的 R 代码，并绘制游走路径图： # 设置游走步数 n <- 1000 # 生成随机游走路径 set.seed(1
基于Qlearning强化学习的倒立摆控制系统matlab仿真
2022-11-23 16:43

我爱C编程的博客 强化学习通常包括两个实体agent和environment。两个实体的交互如下，在environment的statestst下，agent采取actionatat进而得到rewardrtrt 并进入statest+1st+1。Q-learning的核心是Q-table。Q-table的行和列分别...
采用C语言编程，使用编程软件KEIL、仿真工具软件proteus，基于单片机， c语言
2020-12-09 16:22

回答 1 已采纳我这里有解决办法
基于强化学习的倒立摆平衡控制系统simulink仿真,可以显示三维虚拟模型动画效果
2023-03-11 18:09

我爱C编程的博客 强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。深度学习模型可以在强化学习中得到使用，形成深度强化学习。强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互...
基于强化学习的MPC模型预测控制算法仿真,并应用到车辆变道轨迹跟踪控制领域
2024-01-12 21:17

fpga和matlab的博客基于强化学习的控制器，其通过设计一个奖励函数对外部环境改变所做出的控制决策所对应的控制性能进行评价，使得系统的控制效果在当前环境状态下达到最大奖励，即最优控制效果。预测模型通过预测未来的控制序列来实现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月6日

悬赏问题

¥15 笔记本在打游戏时候会自动重启，
¥15 被google屏蔽ip
¥20 如何用python中的pdfplumber提取pdf中的加粗字体文本
¥15 Bottom sheet与内嵌的fragment滚动冲突
¥15 如何确定是主机的哪些服务发起了登陆sqlserver数据库
¥15 思科三层交换机的镜像用哪个？L3镜像创建不了vlan
¥15 Activiti7.0工作流流程实例已经结束，如何重新启动流程并退回到指定的任务节点？
¥15 usb-serial-for-android-master连接端口失败
¥20 你对Pyton有信心吗？
¥15 知道这个是什么图吗，想知道制作详细做法，或者模版也行

基于强化学习的控制系统仿真（相关搜索：强化学习）

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新