用 LoRA 微调 llama 模型的时候 CUDA out of memory 了
使用2张A100,40G显存,已经将 batchsize 降为2了,也设置了set_per_process_memory_fraction,nvidia-smi没有占用显存,ps -ef也没有僵尸进程。求指教!
报错信息⬆️
nvidia-smi⬆️
ps -ef 查看僵尸进程⬆️
使用2张A100,40G显存,已经将 batchsize 降为2了,也设置了set_per_process_memory_fraction,nvidia-smi没有占用显存,ps -ef也没有僵尸进程。求指教!
报错信息⬆️
nvidia-smi⬆️
ps -ef 查看僵尸进程⬆️
让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言问题描述: 在使用 LoRA 进行微调 llama 模型时,出现了 CUDA out of memory 的错误提示。已经尝试将 batchsize 降为2,并设置了 set_per_process_memory_fraction,但仍无法解决问题。同时,nvidia-smi 也未显示占用显存,ps -ef 查看也没有僵尸进程。求教解决方案。 解决方案:
from memory_profiler import profile
@profile
def my_function():
# your code here
nvcc --version
nvidia-smi
如果版本不匹配,需要卸载当前版本,下载安装匹配的版本。 4. 检查模型配置是否正确 如果以上方法仍然无法解决问题,可以检查模型配置是否正确。可能存在一些配置参数设置不当,导致模型无法正常运行。 以上是解决问题的一些常见方法和思路,根据具体情况可以选择适合的解决方案。