- 我构建了一个DQN网络下五子棋,在进行AI博弈的时候发现AI的自我博弈虽然能使AI获得奖励但是在几千轮循环后网络还是无法做到有效的攻防(有目的的连接棋子,或者打断另一方五子相连)。
- 所以我引入了一个下五子棋的程序(通过评分差值下五子棋实现攻防),但是在引入程序后也不知道是程序太强还是里面的的随机性太大,导致在约7500次左右(训练次数是2w但是我看7500多次都没训练成功我就关掉了)的的训练中程序总能在5到16回合内KO掉DQN网络只也就导致了五子棋AI根本就得不到奖励,无法获得学习。
- 我的奖励是下棋:0分
- 获得胜利:1000分
- 范围超过或者平局-20分
- 请问大佬们,我要怎么做才能使这个网络实现有效的攻防和学习。
- 还有就是我用tensorboard的时候发现我的主网络和记忆库的的权重都未发生更新,请问有懂行的大佬知道吗
运用DQN模型,训练五子棋ai,加入五子棋程序后无法学习。
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
0条回答 默认 最新
悬赏问题
- ¥15 安卓adb backup备份应用数据失败
- ¥15 eclipse运行项目时遇到的问题
- ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
- ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
- ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站
- ¥50 成都蓉城足球俱乐部小程序抢票
- ¥15 yolov7训练自己的数据集
- ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
- ¥15 电力市场出清matlab yalmip kkt 双层优化问题
- ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)