不牌不改 2025-04-24 17:41 采纳率: 0%
浏览 55

GRPOTrainer 中的peft_config参数

请教一下各位,GRPOTrainer 中的peft_config参数如何理解。
比如我现在已经通过lora SFT 了一个 model,那么 peft_config 参数是不是应该挂载保存 lora?然后 grpo RL 阶段 reference model 就是 frozen model+lora,policy model 不断更新lora,base model 参数不更新?
如果peft_config传入的是 none,那么相当于全量微调?
请问是这样理解吗?

  • 写回答

7条回答 默认 最新

  • AI仙人掌 iFLYTEKA.I开发者大赛获奖者 2025-04-24 19:09
    关注
    评论

报告相同问题?

问题事件

  • 创建了问题 4月24日