缘孽 2019-07-26 14:06
浏览 949

运用DQN模型,训练五子棋ai,加入五子棋程序后无法学习。

  • 我构建了一个DQN网络下五子棋,在进行AI博弈的时候发现AI的自我博弈虽然能使AI获得奖励但是在几千轮循环后网络还是无法做到有效的攻防(有目的的连接棋子,或者打断另一方五子相连)。
  • 所以我引入了一个下五子棋的程序(通过评分差值下五子棋实现攻防),但是在引入程序后也不知道是程序太强还是里面的的随机性太大,导致在约7500次左右(训练次数是2w但是我看7500多次都没训练成功我就关掉了)的的训练中程序总能在5到16回合内KO掉DQN网络只也就导致了五子棋AI根本就得不到奖励,无法获得学习。
  • 我的奖励是下棋:0分
  • 获得胜利:1000分
  • 范围超过或者平局-20分
  • 请问大佬们,我要怎么做才能使这个网络实现有效的攻防和学习。
  • 还有就是我用tensorboard的时候发现我的主网络和记忆库的的权重都未发生更新,请问有懂行的大佬知道吗
  • 图片说明
  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 树莓派与pix飞控通信
    • ¥15 自动转发微信群信息到另外一个微信群
    • ¥15 outlook无法配置成功
    • ¥30 这是哪个作者做的宝宝起名网站
    • ¥60 版本过低apk如何修改可以兼容新的安卓系统
    • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
    • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
    • ¥50 有数据,怎么用matlab求全要素生产率
    • ¥15 TI的insta-spin例程
    • ¥15 完成下列问题完成下列问题