feudal_ 2026-01-16 09:54 采纳率: 69.2%

如何制作sifu第一关走到栅栏强化学习模型做出来了收敛了奖励50

游戏环境搭好了https://www.bilibili.com/video/BV1aXrYBnEaX
可以参考一下我的这个https://gitee.com/feudal_1/my_python_server/blob/master/sifu_control/ppo_training.py
我没办法稳定在30轮内到门，就是随机撞进去的，我是用的大步伐

成功条件：出现这个q攀爬按钮提示

主要会遇到的问题：
门左边这个角落是个三面墙会卡死，

地图内有一些死胡同，死角落会卡人物模型

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2026-01-16 09:55
关注
上午好☀️☀️☀️️
本答案参考通义千问

根据你的描述，你正在尝试使用强化学习（如PPO算法）训练一个智能体在游戏 Sifu 的第一关中走到栅栏（门），但遇到了一些挑战，例如：

无法在30轮内到达目标门
随机撞墙或卡死在角落
地图中有死胡同和三面墙的区域

下面我将详细分析问题，并提供解决方案，包括模型优化建议、奖励函数设计、环境处理策略以及代码示例。

✅ 一、主要问题分析

1. 动作空间过大（大步伐）

如果你使用了过大的步长（比如每一步移动距离很大），那么智能体很容易“跳”过目标点，或者直接撞到墙壁。
这会导致智能体无法稳定地靠近目标门。

2. 奖励函数设计不合理

当前可能只设置了简单的“到达门”的奖励，而没有对中间行为进行引导（如接近目标、避免碰撞等）。
没有惩罚机制，导致智能体容易随机撞墙或卡住。

3. 环境状态表示不准确

如果你没有正确地将地图中的障碍物、门的位置、智能体位置等信息编码进状态向量，那么智能体就无法做出有效的决策。

4. 探索与利用不平衡

如果你没有合理设置探索率（如ε衰减），智能体可能会陷入局部最优或一直撞墙。

✅ 二、解决方案（有序列表）

1. 调整动作空间（小步伐）

重点部分：

应使用小步伐，让智能体更精确地控制移动方向和距离。

# 修改动作空间为小步长 action_space = Discrete(5) # 上、下、左、右、不动

如果使用连续动作空间，可以限制速度范围：

action_space = Box(low=-0.1, high=0.1, shape=(2,))

2. 设计合理的奖励函数

重点部分：

奖励函数应该鼓励智能体靠近门，同时惩罚碰撞和卡死。

奖励函数设计建议：

| 事件 | 奖励值 | |------|--------| | 每一步靠近门（距离减少） | +0.1 | | 碰到墙或卡死 | -1 | | 成功到达门（出现“q攀爬按钮提示”） | +10 | | 每一步时间惩罚 | -0.01 |

示例代码片段：

def get_reward(state, next_state, done): distance_prev = state['distance_to_door'] distance_next = next_state['distance_to_door'] reward = 0.0 if distance_next < distance_prev: reward += 0.1 # 靠近门加分 if is_collision(next_state): reward -= 1 # 碰到墙或卡死扣分 if done and success_condition_reached: reward += 10 # 成功到达门 reward -= 0.01 # 时间惩罚 return reward

3. 优化状态表示（State Encoding）

重点部分：

确保状态向量包含以下信息：

智能体当前位置坐标
目标门的相对位置
周围是否有障碍物（如三面墙）
是否处于死胡同

示例状态向量结构：

state = { 'x': current_x, 'y': current_y, 'door_x': door_x, 'door_y': door_y, 'wall_up': is_wall_up, 'wall_down': is_wall_down, 'wall_left': is_wall_left, 'wall_right': is_wall_right, 'is_dead_end': is_in_dead_end, }

4. 改进探索策略（Exploration Strategy）

重点部分：

使用ε-greedy 或 Ornstein-Uhlenbeck noise 来平衡探索与利用。

示例代码（使用ε-greedy）：

epsilon = max(0.01, epsilon * 0.995) # 衰减探索率 if np.random.rand() < epsilon: action = random_action() else: action = model.predict(state)

5. 处理死胡同与卡死问题

重点部分：

可以通过检测是否进入死胡同，若进入则给予惩罚，引导智能体绕行。

检测死胡同逻辑（伪代码）：

def is_in_dead_end(state): # 根据周围墙体判断是否是死胡同 if state['wall_up'] and state['wall_left'] and state['wall_right']: return True return False

6. 修改训练循环（Training Loop）

重点部分：

确保每一步都更新状态和奖励，并及时记录经验回放（Replay Buffer）。

示例训练循环（简化版）：

for episode in range(num_episodes): state = env.reset() done = False while not done: action = choose_action(state, epsilon) next_state, reward, done, _ = env.step(action) buffer.add(state, action, reward, next_state, done) state = next_state if len(buffer) > batch_size: train_model(buffer)

✅ 三、代码修改建议（基于你的 ppo_training.py）

你可以参考以下修改后的代码片段：

import gym import numpy as np from ppo import PPOAgent env = gym.make('Sifu-v0') # 假设你已创建自定义环境 agent = PPOAgent(state_dim=8, action_dim=5) for episode in range(1000): state = env.reset() done = False total_reward = 0 while not done: action = agent.act(state) next_state, reward, done, _ = env.step(action) agent.memory.add(state, action, reward, next_state, done) state = next_state total_reward += reward if len(agent.memory) > batch_size: agent.update() print(f"Episode {episode}, Total Reward: {total_reward}")

✅ 四、总结

| 问题 | 解决方案 | |------|----------| | 大步伐导致撞墙 | 使用小步伐或限制速度 | | 奖励函数不合理 | 设计多维度奖励（靠近门、避免碰撞） | | 状态表示不全 | 包含门位置、墙体信息、死胡同判断 | | 探索不足 | 引入 ε-greedy 或噪声策略 | | 卡死问题 | 检测死胡同并给予惩罚 |

如果你愿意分享你的完整代码或环境配置，我可以进一步帮你调试和优化。希望这些建议能帮助你成功训练出稳定的强化学习模型！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

制作一个简单的Sifu人物替换Mod
2022-05-27 18:28

制作一个Sifu人物替换Mod是一项涉及游戏修改技术的复杂任务，尤其对于不熟悉Unreal Engine（虚幻引擎）的人来说。Sifu是一款使用Unreal Engine开发的动作冒险游戏，而Modding社区常常通过创建自定义内容来扩展游戏...
师傅sifu 人物mod制作
2025-07-29 10:14

feudal_的博客解包导出来的characters文件夹要原封不动的复制到最后要打包的文件夹里
突破Transformer架构限制，上海交通大学发布全球首个类脑大语言模型BriLLM
2025-08-14 17:27

计算机科研圈的博客上海交大赵海团队发布全球首个人脑启发大模型BriLLM，突破传统Transformer架构局限。
告别Transformer！上海交大提出BriLLM：首个「类人脑」大模型诞生
2025-08-14 01:32

Amusi（CVer）的博客大脑皮层区域分工明确，Nature 2016 论文的研究显示...简而言之，BriLLM 提出了全新的语言模型架构、全新的动态信号驱动的生成式人工智能任务框架以及首个对人类大脑核心表达与功能机制的宏观全局尺度计算模拟的模型。
告别传统Transformer架构！上海交大发布全球首个“类人脑”大模型，引领机器学习新范式
2025-08-18 14:20

AI前沿速递的博客本文介绍了一款名为BriLLM的类脑大语言模型，它通过一种全新的信号全连接流动（SiFu）学习范式，从根本上重塑了机器学习的基础。为解决现有Transformer模型面临的黑箱不透明、二次方复杂度、上下文长度依赖等核心...
告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生
2025-08-14 15:39

码事通的博客在 SiFu 中，信号传递取代了传统机器学习中的核心预测操作，就像神经电信号在突触间跳跃，最终激活目标神经元的过程。SiFu 有向图的示意图（节点旁的数字表示能量分数）无限上下文处理预测过程通过节点间的信号传播...
sifu:数据结构与算法（DSA）
2021-03-18 04:39

四福一组按解决方案分类的leetcode DSA问题，可帮助他们为编写编码面试做好准备。 75个精选问题系统设计分组2D DFS-[79，130，200，695] DP-[62，63，64，221，1594]二进制搜索[33，34，69，74，153，162，374]树木...
sifu 武器mod制作经验武器贴图缺少解决办法
2025-12-29 10:16

feudal_的博客 umodel把整个weapons导出来 umodel密钥 0x40A266F41FDBCE91312FBB86060D2E9425B7D922C0CF0031F634CAD9AECB49DA 打开MI_Traditional_WoodenStick_01_A.props.txt可以看到父材质是这个解包出来只有txt和mat UnrealPak...
sifu 小身高角色mod制作经验完全变换
2025-12-28 15:11

feudal_的博客用角色本来的骨架套小角色，小身高角色不动的时候会有变大问题。blender用小孩的psk。导出fbx还是叫原来的名字。
BriLLM: Brain-inspired Large Language Model 文章评论
2025-09-28 18:04

victory0431的博客 BriLLM架构在实现"无界上下文"...解决方案在于扩大边参数容量，使其能存储上下文相关的条件性权重，但需平衡参数增长与模型优势。这些分析为BriLLM从表层可解释迈向深层可解释指明了优化方向。
sifu3dot10.rar_伺服系统_液压 matlab_液压仿真_液压伺服系统_液压控制系统
2022-07-15 10:10

本资料“sifu3dot10.rar”深入探讨了如何利用MATLAB这一强大的数学计算与仿真工具，对液压伺服系统进行建模和仿真，旨在提升系统的性能和稳定性。首先，我们要理解液压伺服系统的概念。它是一种以液压执行机构为...
秒级生成、细节拉满！探索阿里巴巴 LHM 开源模型，人人都是 3D 建模师
2025-04-03 03:00

努力犯错的博客 LHM 以其惊人的速度、出色的细节还原能力和易用性，真正意义上革新了 3D 数字人的创建方式。它不仅是一个强大的技术工具，更是一个激发创意的平台，让“人人都是 3D 建模师”的愿景触手可及。
51c大模型~合集167
2025-08-12 14:40

whaosoft-143的博客在文本到图像生成领域，Lumina-mGPT 2.0 在多个基准测试中表现优异，与 SANA 和 Janus Pro 等扩散模型和自回归模型相当甚至超越，特别是在 “两个物体” 和 “颜色属性” 测试中表现卓越，以 0.80 的 GenEval 分数...
51c大模型~合集90
2024-12-15 12:18

whaosoft-143的博客你注意到，有一两个坏人的国籍特别引起你的注意，因为你还提到了其他一些不好的做法，但他们没有提到国籍。
Sensored FOC of PMSM_sifu.rar_FOC矢量控制_PMSM 位置_TI 永磁电机解决方案_foc_永磁
2022-07-15 11:46

TI永磁同步电机矢量控制有位置传感器解决方案步骤
二：原神本地服务器（sifu）搭建环境配置教程第二篇
2022-11-01 14:49

一鹤ィ的博客二：原神本地服务器（sifu）搭建环境配置教程第二篇环境搭建
《师傅》(《Sifu》)战斗流程系统拆解
2024-03-29 16:40

Umiii7的博客我对整个游戏战斗流程的拆解，包括战斗中玩家可以进行的操作以及选择，以及玩家与敌人不同行为交互的应对手段和相应结果反馈。（由于CSDN博客限制图片大小这里只能放置一个压缩的截图）恳请大家的指正和指点。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月16日

码龄粉丝数原力等级 --

如何制作sifu第一关走到栅栏强化学习模型做出来了收敛了奖励50

2条回答默认最新

码龄粉丝数原力等级 --

✅ 一、主要问题分析

1. 动作空间过大（大步伐）

2. 奖励函数设计不合理

3. 环境状态表示不准确

4. 探索与利用不平衡

✅ 二、解决方案（有序列表）

1. 调整动作空间（小步伐）

2. 设计合理的奖励函数

奖励函数设计建议：

示例代码片段：

3. 优化状态表示（State Encoding）

示例状态向量结构：

4. 改进探索策略（Exploration Strategy）

示例代码（使用ε-greedy）：

5. 处理死胡同与卡死问题

检测死胡同逻辑（伪代码）：

6. 修改训练循环（Training Loop）

示例训练循环（简化版）：

✅ 三、代码修改建议（基于你的 `ppo_training.py`）

✅ 四、总结

问题事件

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

如何制作sifu第一关走到栅栏强化学习模型 做出来了收敛了奖励50

2条回答 默认 最新

✅ 一、主要问题分析

1. 动作空间过大（大步伐）

2. 奖励函数设计不合理

3. 环境状态表示不准确

4. 探索与利用不平衡

✅ 二、解决方案（有序列表）

1. 调整动作空间（小步伐）

2. 设计合理的奖励函数

奖励函数设计建议：

示例代码片段：

3. 优化状态表示（State Encoding）

示例状态向量结构：

4. 改进探索策略（Exploration Strategy）

示例代码（使用ε-greedy）：

5. 处理死胡同与卡死问题

检测死胡同逻辑（伪代码）：

6. 修改训练循环（Training Loop）

示例训练循环（简化版）：

✅ 三、代码修改建议（基于你的 ppo_training.py）

✅ 四、总结

问题事件

如何制作sifu第一关走到栅栏强化学习模型做出来了收敛了奖励50

2条回答默认最新

✅ 三、代码修改建议（基于你的 `ppo_training.py`）