用PPO2做小车避障，reward上升之后一直是平的，这种现象正常吗？

每盘总奖励的曲线.
用PPO2做小车避障，reward上升之后一直是平的，这种现象正常吗？
如果有问题，有什么办法解决？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

ROS2与Stable-Baselines3实战：PPO算法驱动机器人动态避障训练
2026-03-04 00:54

樱红蕉绿的博客本文详细介绍了如何利用ROS2与Stable-Baselines3框架，通过PPO算法训练机器人实现动态避障。文章从环境搭建、自定义Gymnasium训练环境、奖励函数设计，到PPO模型训练、参数调优及最终部署，提供了完整的实战指南，...
【深度学习新浪潮】什么是具身智能？
2026-01-19 23:35

Andrew浮游会的博客当下的人工智能（比如ChatGPT、文心一言、各类视觉大模型）都属于离身智能 (Disembodied AI)——这类智能体仅能在虚拟的数字空间中处理信息、输出文本/图像结果，拥有强大的「认知能力」，却没有「物理躯体」，无法...
AI 智能物流路径规划里强化学习的核心价值
2025-05-29 14:57

AIGC应用创新大全的博客物流行业的“最后一公里”成本占比超50%，路径规划效率直接影响...本文聚焦**强化学习（Reinforcement Learning, RL）**这一AI技术，探讨其如何破解物流路径规划的动态优化难题，覆盖技术原理、实战案例与行业价值。
带Python的人工智能——强化学习
2025-12-26 17:20

小鸡吃米…的博客 2. 关键组件：智能体（Agent）、环境（Environment）、状态（State）、动作（Action）和奖励（Reward）；3. 典型算法：详细讲解Q-Learning算法及其Python实现，包括ε-贪心策略和Q表更新公式；4. 实践案例：通过迷宫...
AI Agent: AI的下一个风口具身机器人的发展趋势
2024-08-08 09:48

光子AI的博客 AI Agent: AI的下一个风口具身机器人的发展趋势 1. 背景介绍 1.1 人工智能的发展历程 1.1.1 早期人工智能
自动泊车强化学习训练及小车实地部署
2024-02-22 13:29

斌擎科技的博客 Garrido-Jurado等人于2014年在一文中提出，在opencv的官方文档中可以找到ArUco的使用方法。ArUco 标记是由宽黑色边框和确定其标识符（id）的内部二进制矩阵组成的正方形标记，被广泛用来增加从二维世界映射到三维...
基于强化学习的AI智能制造柔性生产线实时优化
2025-03-14 12:48

光子AI的博客在当今制造业快速发展的背景下，智能制造成为了提升生产效率、降低成本、提高产品质量的关键方向。柔性生产线作为智能制造的重要组成部分，能够根据不同的生产需求快速调整生产流程和工艺参数，实现多品种、小批量的...
掌握这7个Grid2Op关键模块，轻松实现复杂电网故障恢复仿真
2025-12-13 09:17

QuickTrans的博客掌握7大核心模块，轻松应对电力系统的 Grid2Op 仿真挑战。适用于电网故障恢复、强化学习训练等场景，支持灵活建模与高效仿真。模块化设计提升开发效率，真实还原电力系统动态行为，值得收藏。
多智能体系统简介：MARL、协同机制与典型结构
2025-04-09 21:45

观熵的博客从游戏 AI 到分布式机器人系统，从多 Agent RAG 到 LLM × 工具链联动，**多智能体系统（Multi-Agent Systems, MAS）**正在成为构建复杂 AI 应用的核心范式。本篇我们将带你认识多智能体系统的基本类型、协作机制与...
【机械臂动态避障】基于深度强化学习的实时轨迹优化与Matlab实现【含源码 MYD009期】
2026-02-16 00:21

插座学院的博客本文探讨了基于深度强化学习的机械臂动态避障方法，重点解析了PPO算法在实时轨迹优化中的应用。通过Matlab仿真环境搭建、奖励函数设计及智能体训练全流程，实现了机械臂在动态环境中灵活、平滑的避障轨迹规划，有效...
从PPO到DAPO：强化学习算法演进与实战解析
2026-02-24 00:07

周毛的博客本文系统解析了强化学习算法从PPO到DAPO的演进路径。PPO通过近端约束和Actor-Critic架构确保了训练稳定性，是通用RLHF的基石。GRPO创新性地利用组内相对优势，省去了Critic网络，提升了训练效率。而DAPO则针对长文本...
基于深度强化学习算法的仿真到实践教程
2022-11-07 13:55

方小生–的博客我的毕业论文主要是使用DQN，PPO，SAC仿真，然后放到车上跑（效果不太好）。 DQN和PPO是离散控制，SAC是连续控制。代码说明： DQN是依照turtlebot3官方代码修改的pytorch版本，因为tensorflow配置环境有点难（用过...
51c自动驾驶~合集62
2025-12-18 20:01

whaosoft-143的博客理想最开始的VLM其实就是...到这，其实整体的架构已经就比较清楚了，端到端是自动驾驶真正由人工进入智能的开始，VLA是端到端基础上进一步加入了语言模型，而世界模型是对空间的理解和重塑，跟前两者是完全不同的东西。
51c自动驾驶~合集60
2025-11-29 19:59

whaosoft-143的博客对于 il & rl mix + event reset，本质都是为了限制 rl 的探索，核心原因有 2 个：一个是缩小 rl的搜索空间，加速收敛；剩下就是 rl 的常规操作了，并行 N个 worker，随机选择一个 3dgs-env 进行 rolllout，把 ...
51c自动驾驶~合集58
2025-06-08 20:18

whaosoft-143的博客 ”WeatherEdit 在下游语义分割上做了验证：用其合成的天气数据做增强，在 ACDC 与 MUSE 上训练 HRDA / MIC，mIoU 提升最高可达 +14.9%。这点对于自动驾驶很关键, 它说明 WeatherEdit 不只是视觉展示，而是能为鲁棒...
51c自动驾驶~合集4
2024-10-31 10:36

whaosoft-143的博客而对于评价指标而言，目前主流的包含MOTA, AMOTA, HOTA等，这些指标均是在评价一条轨迹是否能够正确、稳定匹配上，但是对于匹配之后，跟踪这个任务所需要对下游预测规划输出的关键信息（如速度、加速度、角速度）...
Racecar Gym 总结
2025-02-07 13:36

乌拉阿乌的博客 Racecar Gym 是一个基于 PyBullet 物理引擎的自动驾驶仿真平台，提供 Gymnasium（OpenAI Gym）接口，主要用于强化学习（Reinforcement Learning, RL）、多智能体竞速（Multi-Agent Racing）和计算机视觉...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月5日

用PPO2做小车避障，reward上升之后一直是平的，这种现象正常吗？

0条回答 默认 最新

问题事件

0条回答默认最新