小宝宝睡觉觉 2023-02-16 14:52 采纳率: 0%
浏览 31
已结题

强化学习自动控制问题

目前遇到一个利用强化学习的自动控制问题,输入3个变量,输出10个变量,给定两组状态,也就是两组输出变量的值,两组之间阶跃变化,让算法找到拟合最佳的两组输入,这里action就是输入,输出与目标值的差距是reward。这样阶跃的两个状态算不算是两个环境了呢,属于多任务么?目前尝试了ddpg、sac、td3,只拟合一组输出效果还可以,拟合两组的阶跃变化效果不尽人意。

  • 写回答

4条回答 默认 最新

  • Bony- 2023-02-16 14:55
    关注

    根据描述,您提到的自动控制问题可以看作是一个多输出的回归问题,其中输入是三个变量,输出是十个变量,您希望找到一组最佳输入,使其输出与给定的两组状态的变化趋势一致。

    这种问题可以看作是一个强化学习的问题,其中输入可以作为状态(state),输出可以作为动作(action),让算法学习到对应的状态-动作映射关系。但是由于输出是多个变量,因此需要使用多输出的强化学习算法,比如 Multi-Output Deep Deterministic Policy Gradient (MODDPG) 或 Multi-Headed Deep Deterministic Policy Gradient (MH-DDPG)
    另外,如果您需要训练模型来拟合两组阶跃变化的输出,可以考虑使用多任务学习。多任务学习可以让模型同时学习多个任务,共享一些参数,从而提高模型的泛化能力。在这种情况下,您可以将每组阶跃变化看作是一个任务,让模型同时学习两个任务,从而提高模型的性能。

    总之,根据您的描述,您的问题可以被视为一个多输出的强化学习或多任务学习问题,您可以尝试使用多输出的强化学习算法或者多任务学习算法来解决。同时,还需要对数据集进行充分的预处理和特征提取,以提高模型的拟合能力和泛化能力。

    评论 编辑记录

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 5月31日
  • 修改了问题 2月16日
  • 创建了问题 2月16日

悬赏问题

  • ¥15 高通uboot 打印ubi init err 22
  • ¥20 PDF元数据中的XMP媒体管理属性
  • ¥15 R语言中lasso回归报错
  • ¥15 网站突然不能访问了,上午还好好的
  • ¥15 有没有dl可以帮弄”我去图书馆”秒选道具和积分
  • ¥15 semrush,SEO,内嵌网站,api
  • ¥15 Stata:为什么reghdfe后的因变量没有被发现识别啊
  • ¥15 振荡电路,ADS仿真
  • ¥15 关于#c语言#的问题,请各位专家解答!
  • ¥15 这个如何解决详细步骤