電腦配備 i7-14700kf 32G RTX4070
使用ollama 跑deepseek r1 14B 4比特量化模型
載入時全載內存去了,顯存占用0.7G左右
執行時ollama執行續顯示CPU占用50 GPU占用0
網上查到的安裝CUDE/設定變量都試過了
也跑過0.5B千問一樣用CPU跑
用ComfyUI跑AI繪圖到是可以用GUP
現在每秒吐2、3個字我快瘋了
電腦配備 i7-14700kf 32G RTX4070
使用ollama 跑deepseek r1 14B 4比特量化模型
載入時全載內存去了,顯存占用0.7G左右
執行時ollama執行續顯示CPU占用50 GPU占用0
網上查到的安裝CUDE/設定變量都試過了
也跑過0.5B千問一樣用CPU跑
用ComfyUI跑AI繪圖到是可以用GUP
現在每秒吐2、3個字我快瘋了
阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程
你遇到了使用 Ollama 运行 DeepSeek R1 14B 4-bit 量化模型时,CPU 使用率高,显存占用很小的问题。
可能的原因是 Ollama 模型的内存占用太高,导致 CPU 需要频繁地访问内存,从而导致 CPU 使用率高。
解决方案:
代码示例:
import torch
import torch.nn as nn
import ollama
# 加载模型
model = ollama.load_model('deepseek_r1_14b_4bit')
# 量化模型
model.quantize()
# 裁剪模型
model.prune()
# 使用 GPU 加速
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
model.to(device)
注意:以上代码只是示例,需要根据实际情况进行调整。