Alpha-Kanna 2025-04-08 21:27 采纳率: 0%

为什么我基于线性回归训练的终极井字棋 Minimax AI 表现不如手调？

我正在用 Minima+ Alpha-Beta 剪枝实现一个终极井字棋（Ultimate Tic-Tac-Toe）的 AI，要求只使用 Minima，不允许强化学习或深度搜索（比如禁止MCTS）。我的做法如下：

当前实现方式：
搜索算法：使用标准的 Minima（带 Alpha-Beta 剪枝）

评估函数：从棋盘状态中提取若干特征（例如赢得小棋盘数、是否控制中心、潜在胜利线等），然后对这些特征打分。评估函数永远是基于player1（圈玩家）的视角

评分模型：假设评估值与这些特征之间存在线性关系

权重训练：我手头有一组高质量标注数据（状态 → utility），于是使用了线性回归拟合出每个特征的权重

尽管训练数据的标注很准，线性模型在拟合损失上表现也不错，但在实际对抗中：

线性模型训练出来的评估函数效果很差，甚至不如我随便拍脑袋设的权重，连一个随机选择动作的 AI 都很难稳定战胜。
我自己的直觉是提取的特征集不好。但是我换了几个特征集结果也仍不理想。

欢迎大家指点迷津，非常感谢！

以下是我的特征提取函数，评估函数的代码，和状态表示

我使用了一个state类来表示棋盘状态，以下是state的一些方法和变量
state.board: 一个 4 维数组，形状为 333*3

前两个维度表示大棋盘上的位置（即小棋盘的索引）

后两个维度表示该小棋盘内部的 3*3 网格

每个格子的值为：

0 表示空

1 表示 Player 1（圈）落子

2 表示 Player 2（叉）落子

state.local_board_status: 一个 3*3 的矩阵，表示每个小棋盘的胜负状态

0: 游戏未结束

1: Player 1 胜出该小棋盘

2: Player 2 胜出该小棋盘

3: 该小棋盘打平

state.coefficients, state.intercept: 通过线性模型训练出来的每个特征的权重，和线性函数的常数项

其他辅助函数：

get_all_valid_actions(): 返回当前合法动作

change_state(action): 返回执行动作后的新状态

terminal_utility(): 返回终局得分，Player1 赢为 1.0，平局为 0.5，输为 0.0

特征提取函数：

    def e*tract_features(self, state):
        features = []
        board = state.board
        local = state.local_board_status
        # 1. Global status: Features: # of potential lines in meta board and game state of each local board
        features.append(self.count_potential_lines(local, 1))
        features.append(self.count_potential_lines(local, 2))
        features += local.flatten().tolist()
        
        # 2. Local threats. Features: number about-to-win and about-to-lose in each local board
        for i in range(3):
            for j in range(3):
                sub = board[i][j]
                features.append(self.count_potential_lines(sub, 1))  # Player 1 threats
                features.append(self.count_potential_lines(sub, 2))  # Player 2 threats
        
        # 3. Center control
        if local[1][1] == 1:
            features.append(7)
        elif local[1][1] == 2:
            features.append(-7)
        elif local[1][1] == 3:
            features.append(0)
        else:
            features.append(np.sum(local[1][1] == 1) - np.sum(local[1][1] == 2))
        
        # 4. Active board evaluation (2 features)
        if state.prev_local_action:
            ai, aj = state.prev_local_action[0], state.prev_local_action[1]
            if local[ai][aj] == 0: # ne*t player cannot move freely
                features.append(0)
            else:
                features.append(1)
        else:
            features.append(1)
            
        return np.array(features)

    def count_potential_lines(self, board, player):
        winning_lines = [
            [(0,0), (0,1), (0,2)],
            [(1,0), (1,1), (1,2)],
            [(2,0), (2,1), (2,2)],
            [(0,0), (1,0), (2,0)],
            [(0,1), (1,1), (2,1)],
            [(0,2), (1,2), (2,2)],
            [(0,0), (1,1), (2,2)],
            [(0,2), (1,1), (2,0)]
        ]
        
        count = 0
        for line in winning_lines:
            values = [board[pos] for pos in line]
            if values.count(player) == 2 and 0 in values:
                count += 1
        
        return count

评估函数

    def evaluate(self, state):
        features = self.e*tract_features(state)
        return np.dot(features, self.coefficients) + self.intercept

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-04-08 21:27
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题分析

您使用线性回归训练的 Minimax AI 在 Ultimate Tic-Tac-Toe 中表现不如手调，这可能是由于以下几个原因：

线性回归的限制：线性回归只能学习线性关系，Ultimate Tic-Tac-Toe 是一个复杂的游戏，需要考虑多个因素和可能的游戏状态，线性回归可能无法捕捉这些复杂关系。
Minimax 算法的限制：Minimax 算法是一种基于树搜索的算法，需要在搜索树中选择合适的节点，Ultimate Tic-Tac-Toe 的搜索树可能非常深，Minimax 算法可能无法有效地搜索整个树。
Alpha-Beta 剪枝的限制：Alpha-Beta 剪枝是一种优化技术，可以减少搜索树的大小，但是Ultimate Tic-Tac-Toe 的搜索树可能非常大，Alpha-Beta 剪枝可能无法有效地剪枝。

解决方案

尝试使用非线性模型：可以尝试使用非线性模型，如神经网络或 decision tree，来学习 Ultimate Tic-Tac-Toe 的策略。
改进 Minimax 算法：可以尝试使用其他的 Minimax 算法，如 Monte Carlo Tree Search（MCTS），来搜索 Ultimate Tic-Tac-Toe 的搜索树。
优化 Alpha-Beta 剪枝：可以尝试使用其他的 Alpha-Beta 剪枝算法，如 iterative deepening，来优化 Ultimate Tic-Tac-Toe 的搜索树。

代码示例

以下是一个使用 Python 实现的 Ultimate Tic-Tac-Toe AI，使用 Minimax 算法和 Alpha-Beta 剪枝：

import numpy as np class TicTacToeAI: def __init__(self): self.board = np.zeros((3, 3, 3, 3)) self.alpha = -float('inf') self.beta = float('inf') def evaluate(self, board): # 评估游戏状态 # ... return score def minimax(self, board, depth, alpha, beta): # Minimax 算法 # ... return best_move def alphabeta(self, board, depth): # Alpha-Beta 剪枝 # ... return best_move def play(self, board): # 选择最佳移动 best_move = self.alphabeta(board, 0) return best_move # 使用示例 ai = TicTacToeAI() board = np.zeros((3, 3, 3, 3)) ai.play(board)

Note: 以上代码只是一个示例，Ultimate Tic-Tac-Toe 的实现需要考虑更多的因素和可能的游戏状态。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么我基于线性回归训练的终极井字棋 Minimax AI 表现不如手调？
2025-04-20 07:00

bug菌¹的博客如下是上述问题的解决方案，仅供参考：从你的描述中可以看出，虽然你训练了一个基于线性回归的评估函数，并且这个模型在拟合训练数据时表现良好，但在实际对抗中，模型的表现却远不如你预期，甚至不如手调的...
C++实现的AI井字棋游戏：深度优先搜索与α-β剪枝技术
2025-06-16 22:07

啃老师的博客在游戏开发领域，C++的高效性能对于AI井字棋游戏的快速响应和决策制定至关重要。深度学习技术为棋类游戏AI的发展带来了新的机遇和挑战。通过其强大的模式识别和自适应能力，深度学习在棋类游戏中的应用不仅推动了AI...
井字棋极小极大算法LISP实现详解
2025-09-08 10:03

一一MIO一一的博客状态转移函数用于根据当前...它决定了算法在递归搜索过程中对每一个游戏状态的价值判断，尤其是在搜索尚未达到最终状态（如胜利、失败或平局）时，评估函数通过启发式方法为算法提供“当前局势是否有利”的判断依据。
QT—基于α-β 剪枝算法井字棋小游戏
2023-06-28 20:22

不惭世上英!的博客基于α-β 剪枝算法井字棋小游戏
计算机博弈：AI人工智能引领的智能风暴
2025-05-26 13:28

AIGC应用创新大全的博客本文将聚焦“AI如何在博弈中做出智能决策”这一核心，覆盖从经典算法到前沿技术的全链路解析。本文将按照“故事引入→核心概念→算法原理→实战案例→应用与未来”的逻辑展开：先通过经典博弈事件唤醒兴趣，再用生活...
AI博弈算法对比：Minimax vs 蒙特卡洛 vs 神经网络
2025-07-11 00:36

AGI大模型与大数据研究院的博客当我们谈论AI玩游戏时，总会想起AlphaGo击败李世石的经典时刻——但你知道吗？AlphaGo的"智慧"其实是三种博弈算法的融合：Minimax的逻辑推理、蒙特卡洛的随机探索，以及神经网络的模式识别。本文将以"下棋"为线索，...
人工智能基础知识概览
2024-11-22 23:10

Late_Autumn_Lake的博客本章节帮助大家对人工智能算法以及人工智能领域的知识有一个基本了解，笔者将介绍在人工智能领域被频繁使用的算法以及他们的中英文专业术语，例如极大极小算法、阿尔法贝塔剪枝、命题逻辑、一阶逻辑、宽度优先典型...
Minimax算法深度解析与实战（基于井字游戏TicTacToe）
2025-10-16 15:55

mater lai的博客我们定义一个名为的类，其主要职责包括：- 维护当前棋盘状态（3x3二维数组）- 提供胜负判断和评估函数- 实现Minimax递归搜索主逻辑// AI// 方法签名列表其中，minimax为核心递归函数，标识当前是否为最大化玩家（AI...
极大极小搜索-----不太傻的井字棋
2018-07-30 01:20

摩霄志在潜修羽的博客这是学极大极小搜索的第二（三）天，昨天因为思路较为混乱，且对评估函数不甚了解，因此自己写出来的AI井字棋宛若ZZ，不过仔细查看了学长的PPT并且钻研了一番，总算对Minimax算法有了比较细致的理解，在参考了一个...
14、用Processing构建严肃游戏：从粒子引擎到井字棋
2025-08-24 12:24

algae的博客本文介绍了如何使用Processing构建一个特殊的井字棋游戏，结合面向对象编程和博弈论的概念，探讨了Processing在严肃游戏开发中的应用。内容涵盖了从粒子引擎到游戏逻辑设计、AI算法实现、奖励机制构建以及类结构设计...
2023 年最常见的人工智能面试问题
2023-08-17 20:36

geeks老师的博客自从我们意识到人工智能如何对市场产生积极影响以来，几乎每个大型企业都在寻找人工智能专业人士来帮助他们实现愿景。在这个人工智能面试问题博客中，我收集了面试官最常问的问题。
人工智能与信息社会——基于决策树和搜索的智能系统
2020-03-03 17:46

杨丙寅的博客 D、线性级别 2【单选题】人类对于知识的归纳总是通过(A)来进行的。 A、判断 B、枚举 C、猜想 D、预测 3【单选题】第一例专家系统是在(B)领域发挥作用的。 A、物理 B、化学 C、数学 D、生物 4【单选题】1977年在...
井字游戏实战：HTML、CSS和JavaScript的基础应用
2024-09-23 14:45

黄冈新学爸的博客简介：本项目是一个基于Web的井字游戏，利用HTML、CSS和JavaScript三种前端技术实现。HTML构建游戏界面的基础结构，CSS负责界面的美化，而JavaScript则处理游戏逻辑和用户交互。游戏支持两个玩家进行对战，通过点击...
基于 Minimax 算法的 Android 逻辑游戏开发实战
2025-04-29 09:46

兰森环游世界的博客 Minimax算法是计算机科学和游戏理论中的经典算法，它主要用于零和游戏（例如国际象棋、井字游戏等）中，对局双方的收益总和为零，一方的收益必然是另一方的损失。其核心思想是通过递归的方式，从叶子节点开始，计算...
人工智能技术及应用期末考试
2024-01-04 15:22

HYQQQ2918768150的博客 1、考虑到对称性，井字棋最终局面有____种不相同的可能 A、19683 B、91 C、44 D、138 2、第一例专家系统是在____领域发挥作用的 A、生物 B、化学 C、数学 D、物理 3、科幻影片反映了人们对人工智能未来的...
人工智能基础复习2——问题求解
2017-06-11 22:10

rectsuly的博客 03 Problem solving search 很多AI任务都可以形式化为...问题求解智能体：基于目标Agent 问题形式化问题实例基本搜索算法问题求解Agent function SIMPLE-PROBLEM-SOLVING-AGENT(percept) returns an acti
【题解】【中国大学MOOC】（北京大学）人工智能与信息社会考试——期末考试
2020-05-01 20:13

Tuenity的博客 1.在Alpha-Beta剪枝算法中，我们把一个结点可能取值的上界记作____值，下界记作____值。编号选项 A 以上都不对 ...井字棋 C 军棋 D 黑白棋 3.图中的剪枝过程称为____剪枝 ...
第8章 Unity中棋类游戏智能搜索算法的深入实践
2026-01-13 14:10

小宝哥Code的博客本文深入探讨了Unity引擎中棋类游戏AI智能搜索算法的实践应用。...全文采用规范的Allman代码风格和驼峰命名法，提供可直接集成到商业项目的实用代码示例，适用于从简单井字游戏到复杂国际象棋等多种棋类游戏的AI开发。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月8日

为什么我基于线性回归训练的终极井字棋 Minimax AI 表现不如手调？

4条回答 默认 最新

问题分析

解决方案

代码示例

问题事件

4条回答默认最新