GRPOTrainer 中的peft_config参数

请教一下各位，GRPOTrainer 中的peft_config参数如何理解。
比如我现在已经通过lora SFT 了一个 model，那么 peft_config 参数是不是应该挂载保存 lora？然后 grpo RL 阶段 reference model 就是 frozen model+lora，policy model 不断更新lora，base model 参数不更新？
如果peft_config传入的是 none，那么相当于全量微调？
请问是这样理解吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
AI仙人掌 iFLYTEKA.I开发者大赛获奖者 2025-04-24 19:09
关注
你应该看下https://github.com/huggingface/trl/pull/3196

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

GRPOTrainer 中的peft_config参数如何理解？
2025-04-29 22:00

bug菌¹的博客本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你...
GRPO 与 TRL实现的GRPOTrainer中_prepare_inputs函数详解
2025-02-22 14:53

阿正的梦工坊的博客下面是一篇面向初学者的中文博客，介绍 GRPOTrainer 中 _prepare_inputs 函数的核心逻辑、执行流程以及它在 GRPO 算法（Group Relative Policy Optimization）里扮演的角色。本文将结合具体代码段落，帮助你快速理解...
实现GRPO（Implementing GRPO）
2025-04-21 14:46

cv2016_DL的博客 log_on_each_node=False, ) 配置LoRA进行参数高效微调 peft_config = LoraConfig( r=8, # 从16减少以适应Colab内存 lora_alpha=32, target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], # 简化目标模块 ...
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
2025-02-10 03:01

华清阙的博客 = "no" else None, peft_config=get_peft_config(model_args), callbacks=get_callbacks(training_args, model_args), ) ############### # Training loop ############### logger.info("*** Train ***") checkpoint...
Trl框架 SFT/GRPO训练+模板预测
2025-02-11 09:37

confiself的博客 peft_config=get_peft_config(model_args), ) # Train and push the model to the Hub trainer.train() # Save and push to hub trainer.save_model(training_args.output_dir) if training_args.push_to_hub: ...
研读trl/grpo_trainer.py深度理解GRPO思想
2025-02-14 09:46

AI仙人掌的博客 ........该采样器的作用是将数据集的索引重复次，以保证每个提示能在多个进程中重复出现，从而确保相同的提示被分配...它继承自，这意味着它可以使用库中训练参数的基本配置，并在此基础上扩展特定于 GRPO 训练的参数。
【大模型】大模型（Qwen2.5）_GRPO训练教程_AutoDL
2025-03-20 14:10

浪啦里格朗的博客本教程主要目的是完成在的GPU服务器 4090 上，对大...当然，也可以使用其他类型的GPU，实现训练过程中 24G的显存也会用到了7G，模型可以完美切换到其他Qwen模型进行微调，我这里只是为了演示选择了较少的3B模型。
从Open R1来看如何训练DeepSeek R1模型
2025-02-09 16:27

Tony小周的博客 GRPO 是一种在线学习算法，这意味着它通过在训练期间使用受训模型自身生成的数据来迭代改进。GRPO 目标背后的直觉是最大化...这种方法提高了训练效率，使GRPO在需要复杂问题解决和长链思维的推理任务中表现尤为出色。
一文通透GRPO——通俗理解“群体相对策略优化”：去掉价值估计，不用像PPO中复杂的GAE计算(含代码实现)
2024-03-12 16:46

v_JULY_v的博客、分别采样于问题数据集、旧策略中是PPO中引入的与裁剪clip相关的超参数，用于稳定训练 clip就是约束新旧策略重要性比值的大小，使得这个比值最大不大于，最小不小于——相当于比值在这两个边界的中间了是优势，其...
【DeepSeek】LLM强化学习GRPO Trainer详解
2025-01-28 16:55

FF-Studio的博客满足此要求的最简单方法是在函数签名中使用**kwargs。对于标准格式prompts和将是字符串列表。对于对话格式prompts和将是消息字典列表。返回值：函数必须返回一个浮点数列表。每个浮点数代表对应于单个补全的奖励。
Unsloth 实战：DeepSeek-R1 模型高效微调指南（下篇）
2025-07-14 14:52

比特魔法师的博客 ) 找到trl的Trainer（比如SFTTrainer、PPOTrainer、GRPOTrainer等），然后把swanlab_callback实例传入到callbacks参数中： from trl import SFTConfig, SFTTrainer ... trainer = SFTTrainer( ... # 传入callbacks...
Python 实现 GRPO 简版
2025-04-18 17:16

Python之栈的博客 log_on_each_node=False, ) 配置LoRA进行参数高效微调 peft_config = LoraConfig( r=8, # 从16减少以适应Colab内存 lora_alpha=32, target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], # 简化目标模块 ...
用GRPO训练你的第一个对话AI：基于Qwen2.5-0.5B的保姆级实战指南（含LoRA微调）
2025-11-17 06:28

julia4scientist的博客本文提供了一份基于Qwen2.5-0.5B模型，使用GRPO（Group Relative Policy Optimization）进行强化学习对话AI训练的实战指南。内容涵盖环境搭建、数据准备、奖励函数设计、LoRA微调配置及模型部署全流程，旨在帮助...
DeepSeek-GRPO
2025-03-05 09:51

Focus_Liu的博客 per_token_logs和old_per_token_logps都是softmax再取log后得到的，每个元素都是负数，现在相减再e的对数，也就是原来的值相除，对应公式中。一个prompt采样多个output然后给不同的output不同的权重（advantage），...
deepseek-glm4-grpo训练
2025-02-20 17:16

云帆1212的博客 GRPOTrainer, ModelConfig, ScriptArguments, TrlParser, get_peft_config @dataclass class GRPOScriptArguments(ScriptArguments): """ Script arguments for the GRPO training script. Args: reward_model_name...
DeepSeek R1 “顿悟时刻”(Aha Moment) 的重现与探索：基于 GRPO 的倒计时游戏训练
2025-02-10 21:09

歌刎的博客本文聚焦于 DeepSeek R1 的发布，介绍了其在行业中的震撼影响。作者尝试使用组相对策略优化（GRPO）和倒计时游戏重现 DeepSeek R1 的 “顿悟时刻”。文中详细阐述了开发环境设置、训练样本生成、使用 GRPO 训练模型...
deepseek GRPO算法保姆级讲解(数学原理+源码解析+案例实战)
2025-03-16 23:06

硅星纯牛码的博客 GRPO（Groupwise relative policy ...首次提出是在DeepSeekMath中，RL被证明在SFT阶段后能有效提升LLM的数学推理能力。在GRPO提出之前，有两种流行的RLHF技术被广泛用于大模型的对齐过程中，分别是PPO和DPO。
【复现DeepSeek-R1之Open R1实战】系列6：GRPO源码结构解析
2025-02-18 23:05

Donvink的博客 kwargs: 其他可选参数（在本函数中未使用）。提取补全内容 contents = [completion[0]["content"] for completion in completions] 从 completions 列表中提取每个补全的第一个内容（假设每个补全是单个元素的列表...
从零到一：个人开发者的LLM训练实战指南（二）
2025-12-19 02:35

Robot侠的博客 Trainer datasets 3.0+ 数据处理流式加载、数据映射 accelerate 1.2+ 分布式训练多卡并行、混合精度 peft 0.14+ 参数高效微调 LoRA, QLoRA, 热交换 trl 0.12+ 对齐训练 SFTTrainer, DPOTrainer, GRPOTrainer ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月24日

GRPOTrainer 中的peft_config参数

7条回答 默认 最新

问题事件

7条回答默认最新