关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
Kw!G
2021-12-05 17:28
采纳率: 60%
浏览 23
首页
人工智能
已结题
用PPO2做小车避障,reward上升之后一直是平的,这种现象正常吗?
机器学习
python
深度学习
每盘总奖励的曲线.
用PPO2做小车避障,reward上升之后一直是平的,这种现象正常吗?
如果有问题,有什么办法解决?
收起
写回答
好问题
0
提建议
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
收藏
举报
0
条回答
默认
最新
查看更多回答(-1条)
向“C知道”追问
报告相同问题?
提交
关注问题
ROS2与Stable-Baselines3实战:PPO算法驱动机器人动态
避障
训练
2026-03-04 00:54
樱红蕉绿的博客
本文详细介绍了如何利用ROS2与Stable-Baselines3框架,通过PPO算法训练机器人实现动态
避障
。文章从环境搭建、自定义Gymnasium训练环境、奖励函数设计,到PPO模型训练、参数调优及最终部署,提供了完整的实战指南,...
PPO训练
小车
2026-03-19 15:03
ZPC8210的博客
用 Gazebo+ROS 搭建 TurtleBot3,定义观测(激光 / 图像)、动作(线速度 / 角速度)、奖励函数(
避障
+ 进度)。或用 MetaDrive
做
自动驾驶仿真,动作空间为连续(转向 + 油门)。python运行# 设备配置# Actor网络...
【深度学习新浪潮】什么是具身智能?
2026-01-19 23:35
Andrew浮游会的博客
当下的
人工智能
(比如ChatGPT、文心一言、各类视觉大模型)都属于离身智能 (Disembodied AI)——这类智能体仅能在虚拟的数字空间中处理信息、输出文本/图像结果,拥有强大的「认知能力」,却没有「物理躯体」,无法...
从零到一:在Webots中构建强化学习驱动的二轮
避障
小车
全流程
2026-04-04 09:13
常河的博客
本文详细介绍了在Webots仿真
平
台中从零构建强化学习驱动的二轮
避障
小车
的全流程,包括环境搭建、机器人建模、传感器集成和DQN算法实现。通过实战案例和代码示例,帮助开发者掌握强化学习在机器人
避障
中的应用,提升...
AI 智能物流路径规划里强化学习的核心价值
2025-05-29 14:57
AIGC应用创新大全的博客
物流行业的“最后一公里”成本占比超50%,路径规划效率直接影响...本文聚焦**强化学习(Reinforcement Learning, RL)**这一AI技术,探讨其如何破解物流路径规划的动态优化难题,覆盖技术原理、实战案例与行业价值。
带Python的
人工智能
——强化学习
2025-12-26 17:20
小鸡吃米…的博客
2. 关键组件:智能体(Agent)、环境(Environment)、状态(State)、动作(Action)和奖励(Re
war
d);3. 典型算法:详细讲解Q-Learning算法及其Python实现,包括ε-贪心策略和Q表更新公式;4. 实践案例:通过迷宫...
如何用课程学习(CL)加速强化学习(RL)训练?5个实战技巧分享
2025-07-27 09:07
bert9linguist的博客
通过设计环境包装器、评估难度与学习进度、实现动态课程调度、与PPO等主流算法融合,并规避过拟合等陷阱,能有效解决RL训练效率低下、奖励稀疏等问题,显著提升智能体在复杂任务中的学习速度与稳定性。
AI Agent: AI的下一个风口 具身机器人的发展趋势
2024-08-08 09:48
光子AI的博客
AI Agent: AI的下一个风口 具身机器人的发展趋势 1. 背景介绍 1.1
人工智能
的发展历程 1.1.1 早期
人工智能
基于强化学习的AI智能制造柔性生产线实时优化
2025-03-14 12:48
光子AI的博客
在当今制造业快速发展的背景下,智能制造成为了提升生产效率、降低成本、提高产品质量的关键方向。柔性生产线作为智能制造的重要组成部分,能够根据不同的生产需求快速调整生产流程和工艺参数,实现多品种、小批量的...
掌握这7个Grid2Op关键模块,轻松实现复杂电网故障恢复仿真
2025-12-13 09:17
QuickTrans的博客
掌握7大核心模块,轻松应对电力系统的 Grid2Op 仿真挑战。适用于电网故障恢复、强化学习训练等场景,支持灵活建模与高效仿真。模块化设计提升开发效率,真实还原电力系统动态行为,值得收藏。
基于Turtlebot3与深度强化学习的多机器人协同
避障
仿真实战(含代码解析)
2025-08-17 04:38
奥利奥Stack的博客
本文详细介绍了基于Turtlebot3与深度强化学习的多机器人协同
避障
仿真项目实战。通过搭建ROS Noetic与Gazebo仿真环境,结合DDPG算法与LSTM网络,实现多移动机器人在复杂场景下的协同导航与
避障
。文章提供了从环境配置...
多智能体系统简介:MARL、协同机制与典型结构
2025-04-09 21:45
观熵的博客
从游戏 AI 到分布式机器人系统,从多 Agent RAG 到 LLM × 工具链联动,**多智能体系统(Multi-Agent Systems, MAS)**正在成为构建复杂 AI 应用的核心范式。 本篇我们将带你认识多智能体系统的基本类型、协作机制与...
【机械臂动态
避障
】基于深度强化学习的实时轨迹优化与Matlab实现【含源码 MYD009期】
2026-02-16 00:21
插座学院的博客
本文探讨了基于深度强化学习的机械臂动态
避障
方法,重点解析了PPO算法在实时轨迹优化中的应用。通过Matlab仿真环境搭建、奖励函数设计及智能体训练全流程,实现了机械臂在动态环境中灵活、
平
滑的
避障
轨迹规划,有效...
从PPO到DAPO:强化学习算法演进与实战解析
2026-02-24 00:07
周毛的博客
本文系统解析了强化学习算法从PPO到DAPO的演进路径。PPO通过近端约束和Actor-Critic架构确保了训练稳定性,是通用RLHF的基石。GRPO创新性地利用组内相对优势,省去了Critic网络,提升了训练效率。而DAPO则针对长文本...
基于深度强化学习算法的仿真到实践教程
2022-11-07 13:55
方小生–的博客
我的毕业论文主要是使用DQN,PPO,SAC仿真,然后放到车上跑(效果不太好)。 DQN和PPO是离散控制,SAC是连续控制。 代码说明: DQN是依照turtlebot3官方代码修改的pytorch版本,因为tensorflow配置环境有点难(用过...
扩散模型驱动的PPO轨迹生成:提升强化学习样本效率的创新实践
2026-03-17 00:13
byco的博客
本文探讨了扩散模型与PPO算法结合在强化学习中的应用,显著提升样本效率和训练稳定性。通过扩散模型生成高质量合成轨迹数据,结合PPO的信任域机制,实现了在稀疏奖励环境中的高效探索与策略优化。实验表明,该方法在...
多智能体协同新范式:MA-PPO算法在复杂环境中的实战解析
2026-03-30 09:12
只有橘子的博客
本文深入解析了MA-PPO算法在多智能体协同中的创新应用,通过共享经验池、中心化-分布式架构和混合动作空间处理三大核心技术,有效解决了传统多智能体系统的训练不稳定和效率低下问题。结合无人机编队、物流机器人等...
没有解决我的问题,
去提问
向专家提问
向AI提问
付费问答(悬赏)服务下线公告
◇ 用户帮助中心
◇ 新手如何提问
◇ 奖惩公告
问题事件
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
系统已结题
12月13日
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
创建了问题
12月5日