专家好,目前在研究强化学习的问题。 我还是小白,我的问题是:
我有一个工作台,有四个站台,用传送带连接,用PLC 来控制。站台一可以选择导入黑,白,绿三种颜色的盒子,可只导入一个,也可以都导入。站台二可以为传送过来的小盒子放入黑色颗粒,站台三可以为传送来的小盒子放入白色颗粒,站台四可以为传送来的小盒子放入绿色颗粒。我给的PLC指令是,导入黑色盒子,然后在站台二向黑色盒子放入黑色颗粒,站台三向黑色盒子放入白色颗粒,站台四不放颗粒。 我想实现的功能如下。
1. 如果我的指令有变化,比如说导入白色盒子,同时向白色盒子导入黑色和白色颗粒,如何实现? 当然我可以直接更改PLC 的指令,但是我想实现的功能是系统读取一个文档,然后让系统自动决策如何用PLC更改指令。
2. 还有就是如果系统收到的命令是导入红色盒子,红色盒子在系统中不存在,如何让系统自动报错?
我的想法是用强化学习,Agent就是小盒子, 环境就是我设置的各种指令,比如文档是A,那么系统的行为就是B, 文档是C,系统的行为就是D。请各位专家帮我看看,想法是否正确?我想先从最简单的强化学习模型入手,专家有没有相应的强化学习模型推荐呢?还有就是做强化学习,我是否需要搭建一个模拟环境呢?
视情况而定,可追加奖励。提前谢谢各位专家了。