cc38458 2025-02-14 23:46 采纳率: 0%
浏览 347

ollama全跑在CPU上

電腦配備 i7-14700kf 32G RTX4070
使用ollama 跑deepseek r1 14B 4比特量化模型
載入時全載內存去了,顯存占用0.7G左右
執行時ollama執行續顯示CPU占用50 GPU占用0
網上查到的安裝CUDE/設定變量都試過了
也跑過0.5B千問一樣用CPU跑
用ComfyUI跑AI繪圖到是可以用GUP

現在每秒吐2、3個字我快瘋了

  • 写回答

4条回答 默认 最新

  • 阿里嘎多学长 2025-02-14 23:46
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    问题解答

    你遇到了使用 Ollama 运行 DeepSeek R1 14B 4-bit 量化模型时,CPU 使用率高,显存占用很小的问题。

    可能的原因是 Ollama 模型的内存占用太高,导致 CPU 需要频繁地访问内存,从而导致 CPU 使用率高。

    解决方案:

    1. 模型量化:尝试使用 8-bit 或 16-bit 量化模型,可以减少模型的内存占用。
    2. 模型裁剪:尝试裁剪模型的参数数量,可以减少模型的内存占用。
    3. 使用 GPU:如果你的计算机配备了 NVIDIA GPU,可以尝试使用 GPU 加速 Ollama 模型的计算,这可能可以减少 CPU 的负载。
    4. 优化 Ollama 配置:尝试调整 Ollama 的配置参数,例如 batch size、sequence length 等,可以减少模型的内存占用。

    代码示例:

    import torch
    import torch.nn as nn
    import ollama
    
    # 加载模型
    model = ollama.load_model('deepseek_r1_14b_4bit')
    
    # 量化模型
    model.quantize()
    
    # 裁剪模型
    model.prune()
    
    # 使用 GPU 加速
    device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
    model.to(device)
    

    注意:以上代码只是示例,需要根据实际情况进行调整。

    评论

报告相同问题?

问题事件

  • 创建了问题 2月14日