请教一下各位,GRPOTrainer 中的peft_config参数如何理解。比如我现在已经通过lora SFT 了一个 model,那么 peft_config 参数是不是应该挂载保存 lora?然后 grpo RL 阶段 reference model 就是 frozen model+lora,policy model 不断更新lora,base model 参数不更新?如果peft_config传入的是 none,那么相当于全量微调?请问是这样理解吗?
收起
你应该看下https://github.com/huggingface/trl/pull/3196
报告相同问题?