关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
Kw!G
2021-12-05 17:28
采纳率: 60%
浏览 23
首页
人工智能
已结题
用PPO2做小车避障,reward上升之后一直是平的,这种现象正常吗?
机器学习
python
深度学习
每盘总奖励的曲线.
用PPO2做小车避障,reward上升之后一直是平的,这种现象正常吗?
如果有问题,有什么办法解决?
收起
写回答
好问题
0
提建议
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
收藏
举报
0
条回答
默认
最新
查看更多回答(-1条)
向“C知道”追问
报告相同问题?
提交
关注问题
AI 智能物流路径规划里强化学习的核心价值
2025-05-29 14:57
AIGC应用创新大全的博客
物流行业的“最后一公里”成本占比超50%,路径规划效率直接影响...本文聚焦**强化学习(Reinforcement Learning, RL)**这一AI技术,探讨其如何破解物流路径规划的动态优化难题,覆盖技术原理、实战案例与行业价值。
AI Agent: AI的下一个风口 具身机器人的发展趋势
2024-08-08 09:48
程序员光剑的博客
AI Agent: AI的下一个风口 具身机器人的发展趋势 1. 背景介绍 1.1
人工智能
的发展历程 1.1.1 早期
人工智能
自动泊车强化学习训练及
小车
实地部署
2024-02-22 13:29
斌擎科技的博客
Garrido-Jurado等人于2014年在一文中提出,在opencv的官方文档中可以找到ArUco的使用方法。ArUco 标记是由宽黑色边框和确定其标识符(id)的内部二进制矩阵组成的正方形标记,被广泛用来增加从二维世界映射到三维...
基于强化学习的AI智能制造柔性生产线实时优化
2025-03-14 12:48
程序员光剑的博客
在当今制造业快速发展的背景下,智能制造成为了提升生产效率、降低成本、提高产品质量的关键方向。柔性生产线作为智能制造的重要组成部分,能够根据不同的生产需求快速调整生产流程和工艺参数,实现多品种、小批量的...
多智能体系统简介:MARL、协同机制与典型结构
2025-04-09 21:45
观熵的博客
从游戏 AI 到分布式机器人系统,从多 Agent RAG 到 LLM × 工具链联动,**多智能体系统(Multi-Agent Systems, MAS)**正在成为构建复杂 AI 应用的核心范式。 本篇我们将带你认识多智能体系统的基本类型、协作机制与...
基于深度强化学习算法的仿真到实践教程
2022-11-07 13:55
方小生–的博客
我的毕业论文主要是使用DQN,PPO,SAC仿真,然后放到车上跑(效果不太好)。 DQN和PPO是离散控制,SAC是连续控制。 代码说明: DQN是依照turtlebot3官方代码修改的pytorch版本,因为tensorflow配置环境有点难(用过...
掌握这7个Grid2Op关键模块,轻松实现复杂电网故障恢复仿真
2025-12-13 09:17
QuickTrans的博客
掌握7大核心模块,轻松应对电力系统的 Grid2Op 仿真挑战。适用于电网故障恢复、强化学习训练等场景,支持灵活建模与高效仿真。模块化设计提升开发效率,真实还原电力系统动态行为,值得收藏。
51c自动驾驶~合集60
2025-11-29 19:59
whaosoft-143的博客
对于 il & rl mix + event reset,本质都是为了限制 rl 的探索,核心原因有 2 个:一个是缩小 rl的搜索空间,加速收敛;剩下就是 rl 的常规操作了,并行 N个 worker,随机选择一个 3dgs-env 进行 rolllout,把 ...
51c自动驾驶~合集58
2025-06-08 20:18
whaosoft-143的博客
因此,当其作为评估器使用时,能够在复杂仿真场景中大幅减少安全违规事件,这表明教会模型“预想危险”是构建真正安全、智能的自动驾驶智能体的关键一步。 论文标题:AD-R1: Closed-Loop Reinforcement Learning for...
51c自动驾驶~合集4
2024-10-31 10:36
whaosoft-143的博客
而对于评价指标而言,目前主流的包含MOTA, AMOTA, HOTA等,这些指标均是在评价一条轨迹是否能够正确、稳定匹配上,但是对于匹配
之后
,跟踪这个任务所需要对下游预测规划输出的关键信息(如速度、加速度、角速度)...
Racecar Gym 总结
2025-02-07 13:36
乌拉阿乌的博客
Racecar Gym 是一个基于 PyBullet 物理引擎 的自动驾驶仿真
平
台,提供 Gymnasium(OpenAI Gym) 接口,主要用于强化学习(Reinforcement Learning, RL)、多智能体竞速(Multi-Agent Racing) 和 计算机视觉...
深度强化学习在机器人自主学习中的突破
2024-11-22 05:46
程序员光剑的博客
它的起源可以追溯到20世纪50年代,当时
人工智能
(Artificial Intelligence,简称AI)的先驱们开始探索如何通过机器自主学习来解决问题。早期的研究主要集中在基于规则的系统和简单的强化学习算法上,如Q-learning和...
机器人强化学习入门学习笔记(二)
2025-05-05 19:30
xiaomu_347的博客
简单易实现(比 TRPO 简洁)稳定性强可用于高维动作空间(如机械臂、二足机器人)官方 ...鲁棒性强比 DDPG 更稳定可靠动作输出确定性高,适合精准控制任务样本效率较好(off-policy)适用于机械臂、
小车
控制等任务。
C++ AI 实用案例强化学习
2025-08-01 13:11
KENYCHEN奉孝的博客
本文摘要介绍了多个C++在AI领域的应用实例,涵盖游戏AI、工业自动化、金融分析、医疗影像和智能家居等领域。在游戏开发中,C++结合AlphaZero框架实现五子棋自我对弈,通过强化学习优化游戏AI;工业方面,基于YOLOv5...
强化学习学习_1
2025-10-05 10:59
jerryinwuhan的博客
RL 能把路径/运动规划问题当作序列决策问题来处理,尤其适用于动态环境、不可预测的障碍...学术上当前的热点:样本效率、sim2real、可证明的安全/约束、可微规划模块、以及把 RL 当作提升传统规划器效率的工具。arXiv。
2025强化学习全景指南:破解RL核心挑战与应用前景
2025-10-23 18:21
无心水的博客
2025年,强化学习已从“实验室技术”走向“工业界核心驱动力”,掌握RL不仅能把握AI技术红利,更能理解“智能决策”的本质。回顾本文,我们从“游乐园比喻”入门RL核心概念,拆解了RL的发展驱动因素与核心挑战,设计...
简单讲解一下怎么强化学习
2025-10-29 22:46
10%光速的博客
强化学习 = 用“奖惩”教会智能体在复杂环境中自主决策。它是AI通向“智能涌现”的关键途径,也是游戏AI、机器人控制、智能决策系统的核心支撑。如果你想,我可以帮你:✅ 搭建一个“玩CartPole或贪吃蛇”的强化学习...
没有解决我的问题,
去提问
向专家提问
向AI提问
付费问答(悬赏)服务下线公告
◇ 用户帮助中心
◇ 新手如何提问
◇ 奖惩公告
问题事件
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
系统已结题
12月13日
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
创建了问题
12月5日