Reinforcement Learning强化学习如何在保存并调用agent后，让sim的动作数据一致？

按照mathworks教程和哔哩哔哩一些视频教程，完成强化学习编码。
计划在训练数据后，保存agent，并让程序在每次sim（）后，都保存和展示最后10次的动作结果。
但我在testdata数据中增加一行新的数据，并进行下一次sim（）后，保存的最后10次动作结果，与上一次
sim（）保存的结果却完全不一样，我希望程序能保留前9次的动作结果，只有最后1次的动作结果根据新的数据而给出，该怎样做呢？谢谢，请求帮助解决！
查阅了很多资料，包括帮助文档，只提到了恢复train过程的参数设置，而对于sim并没有地方提及。
另外，我如下保存agent的方式，有问题吗？代码如下：

if doTraining
% 训练智能体
trainingStates = train(agent,env,trainOpts);
agent_pathname = strcat(agent_dir,'ag',daima,'.mat');
save(agent_pathname,'agent') ; %这样保存可以吗？agent_pathname为事先设定好的保存路径
else
% 调用已训练好的智能体
load(ag_filename,'agent');
end

%% 仿真测试
simOpts = rlSimulationOptions('maxSteps',4000); %最大测试次数4000次
ResetHandleT = @() myResetFunction(testData);
StepHandleT = @(Action,StockSaved) myStepFunction(Action,StockSaved,testData,action_Vectors,total_SN,SN);
envT = rlFunctionEnv(observationInfo,actionInfo,StepHandleT,ResetHandleT);

experience = sim(envT,agent,simOpts);

tuijian_action_temp=squeeze(experience.Action.StockAction.Data);
tuijian_action = zeros(10,1);
% 保存最后10次的动作结果，不够10次则全部保存
if length(tuijian_action_temp)>=10
tuijian_action = tuijian_action_temp(end-9:end);
else
tuijian_action(10-length(tuijian_action_temp)+1:end) = tuijian_action_temp;
end

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
丨封尘绝念斩丨 2022-04-11 20:11
关注
强化学习中状态空间大，在只有达到特定的状态才能给出奖励的设定下，agent很难探索到特定状态，怎么办？ - 知乎不请自来～第一眼看到这个问题就觉得眼熟，正好是本科毕设的时候阐述稀疏奖励问题的特点之一。稀疏奖励问… https://www.zhihu.com/question/382330895

解决 1

无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

MATLAB - 强化学习（Reinforcement Learning）
2024-08-12 11:07

kuan_li_lyg的博客 强化学习工具箱提供了多个预定义的控制系统环境对象，用于模拟双积分器或小车摆杆系统等动态系统。一般来说，每个预定义环境都有两个版本，一个是离散（有限）动作空间，另一个是连续（无限和不可数）动作空间。
Agent Lightning：让任何AI智能体通过强化学习实现高效训练
2025-08-23 16:58

AI极客熊的博客本文将深入解析微软研究院提出的Agent Lightning框架，该框架实现了智能体执行与强化学习训练的完全解耦，能无缝集成各类现有智能体，无需大量代码修改即可进行训练。通过创新的层级RL算法和系统架构，为真实世界...
深度元强化学习在AI Agent策略适应中的应用
2025-03-30 01:59

光子AI的博客深度元强化学习作为一种新兴的技术，旨在让AI Agent能够快速学习并适应新的任务和环境，提高学习效率和泛化能力。本文的目的是深入研究深度元强化学习在AI Agent策略适应中的应用，探讨其原理、算法、实际案例以及...
Agent Lightning: Train ANY AI Agents withReinforcement Learning
2025-12-09 17:01

Steiwe的博客 Agent Lightning，一个灵活且可扩展的框架，使得大语言模型（LLM）可以通过强化学习（RL）方式对任意 AI Agent 进行训练。不同于现有方法会将 RL 训练与 agent 强耦合，或依赖序列拼接与掩码机制，Agent Lightning ...
Deep Reinforcement Learning for Robotics翻译解读
2025-04-05 21:28

MobiCetus的博客图源：Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes，Chen Tang1。是否引入专家策略（expert policy）或专家数据（如人类演示、oracle 策略）以加速学习过程。即如何为所研究的...
强化学习在AI Agent资源调度中的应用
2025-10-21 00:44

AI 项目管理的博客随着人工智能技术的飞速发展，AI Agent在各种复杂环境中得到了广泛应用。然而，如何高效地为AI Agent分配和调度资源成为了一个关键问题。强化学习作为一种强大的机器学习方法，能够让智能体在与环境的交互中不断学习...
AI人工智能领域机器学习的深度强化学习应用
2025-04-23 13:39

光子AI的博客本文旨在为人工智能领域从业者、机器学习研究者及高校学生提供深度强化学习的系统性技术指南。深度强化学习如何突破传统强化学习的状态空间限制？主流深度强化学习算法的适用场景与实现差异是什么？实际工程中如何...
Isaac Sim 入门教程（四）强化学习策略训练宇树人形机器人四足机器人示例
2025-03-25 23:02

kuan_li_lyg的博客 isaac_sim_policy_example Extension 是在 Isaac Sim 中部署 Isaac Lab 强化学习策略的一个框架和一组辅助函数。有关在 Isaac Sim 中训练和构建策略的详细信息，请访问在 Isaac Sim 中部署策略。该扩展程序默认已...
AI架构师必知必会系列：强化学习在金融领域的应用
2023-12-05 01:14

光子AI的博客在金融领域，如何制定最优决策以实现收益最大化和风险最小化一直是一个核心问题。传统的金融决策方法主要依赖于统计模型...近年来,随着人工智能技术的快速发展,强化学习作为一种智能决策方法受到了金融领域的广泛关注。
企业AI Agent的强化学习在自动化交易策略中的高频应用
2025-12-10 13:36

Golang编程笔记的博客本文章的目的在于全面剖析企业AI Agent的强化学习在自动化交易策略高频应用中的技术原理、实际操作和应用前景。随着金融市场的快速发展和技术的不断进步，高频交易成为了金融领域的重要组成部分。企业希望通过AI ...
TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning
2021-06-10 00:45

强殖装甲凯普的博客文章目录前言ArchitectureMathematical ...只要有环境，那么数据可以说是无限的，并且复杂环境中rl训练需要的数据量往往很大，如何高效地挖掘环境中的数据是用rl解决实际问题的痛点。基于竞争性自我
MCP模型上下文协议在AI人工智能中的强化学习应用
2025-06-12 11:44

AI大模型应用之禅的博客在AI领域，强化学习（Reinforcement Learning, RL）的核心是让智能体通过"试错-反馈"学习最优策略。但现实场景中，环境信息往往是动态、碎片化的——比如自动驾驶需要同时关注前车距离、红绿灯状态、乘客对话等。...
AI Agent中的强化学习与探索策略优化
2025-02-25 19:54

光子AI的博客 强化学习作为人工智能领域的重要分支，在AI Agent的决策和行为控制中发挥着关键作用。而探索策略优化则是提高强化学习效率和性能的核心问题。本文的目的在于深入剖析AI Agent中强化学习与探索策略优化的原理、算法和...
AI人工智能深度学习算法：环境感知与数据采集机制
2024-04-23 13:15

光子AI的博客好的,我会严格按照您提供的约束条件,以专业的技术语言写一篇关于&quot...AI人工智能深度学习算法:环境感知与数据采集机制"的博客文章。 AI人工智能深度学习算法:环境感知与数据采集机制 1.背景介绍 1.1 人工智能的
AI Agent的自监督对比学习技术
2025-03-29 20:42

光子AI的博客在人工智能领域，让AI Agent具备高效学习和自主决策的能力是重要的研究目标。传统的监督学习方法需要大量的标注数据，标注过程不仅成本高，而且在某些场景下难以实现。自监督对比学习技术为解决这一问题提供了新的...
构建AI Agent的反馈学习机制
2025-03-15 16:56

光子AI的博客在当今人工智能飞速发展的时代，AI Agent的应用越来越广泛，如在自动驾驶、游戏、智能客服等领域。然而，要使AI Agent能够更加智能、灵活地应对各种复杂任务，构建有效的反馈学习机制至关重要。本文的目的在于深入...
【机器学习】强化学习入门：从零掌握 Agent 到 DQN 核心概念与 Gym 实战
2025-03-30 09:15

吴师兄大模型的博客大家好！欢迎来到我们机器学习探索之旅的第 16 天！...强化学习正是模拟了这种“试错学习”的过程，让机器（智能体 Agent）在与环境 (Environment) 的交互中学习如何做出最优决策，以获得最大的累积奖励 (Reward)。
【05.isaac-lab】最新从零无死角系列-(05) isaac-lab之框架剖析：强化学习库包装，视屏录制包装-记录保存训练视屏
2025-01-09 21:13

江南才尽，年少无知！的博客 2.step(self, action) 有的朋友可能对视屏的渲染与录制视屏过程比较好奇，比如说保存为视屏的图像是如何获取的，本人并没有深入对源码进行分析，大致梳理后知道其获取仿真界面图像画面的调用过程如下所示： def ...
构建AI Agent的对抗学习机制：提高鲁棒性
2025-03-15 00:03

光子AI的博客随着人工智能技术的快速发展，AI Agent在各个领域得到了广泛应用，如游戏、自动驾驶、机器人控制等。然而，这些AI Agent在实际应用中往往面临各种不确定性和攻击，其鲁棒性成为了一个关键问题。本文章的目的是深入...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

Reinforcement Learning强化学习 如何在保存并调用agent后，让sim的动作数据一致？

2条回答 默认 最新

问题事件

Reinforcement Learning强化学习如何在保存并调用agent后，让sim的动作数据一致？

2条回答默认最新