ollama全跑在CPU上

電腦配備 i7-14700kf 32G RTX4070
使用ollama 跑deepseek r1 14B 4比特量化模型
載入時全載內存去了，顯存占用0.7G左右
執行時ollama執行續顯示CPU占用50 GPU占用0
網上查到的安裝CUDE/設定變量都試過了
也跑過0.5B千問一樣用CPU跑
用ComfyUI跑AI繪圖到是可以用GUP

現在每秒吐2、3個字我快瘋了

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-02-14 23:46
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题解答

你遇到了使用 Ollama 运行 DeepSeek R1 14B 4-bit 量化模型时，CPU 使用率高，显存占用很小的问题。

可能的原因是 Ollama 模型的内存占用太高，导致 CPU 需要频繁地访问内存，从而导致 CPU 使用率高。

解决方案：

模型量化：尝试使用 8-bit 或 16-bit 量化模型，可以减少模型的内存占用。
模型裁剪：尝试裁剪模型的参数数量，可以减少模型的内存占用。
使用 GPU：如果你的计算机配备了 NVIDIA GPU，可以尝试使用 GPU 加速 Ollama 模型的计算，这可能可以减少 CPU 的负载。
优化 Ollama 配置：尝试调整 Ollama 的配置参数，例如 batch size、sequence length 等，可以减少模型的内存占用。

代码示例：

import torch import torch.nn as nn import ollama # 加载模型 model = ollama.load_model('deepseek_r1_14b_4bit') # 量化模型 model.quantize() # 裁剪模型 model.prune() # 使用 GPU 加速 device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu') model.to(device)

注意：以上代码只是示例，需要根据实际情况进行调整。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【技术详解】Ollama：如何在本地CPU上部署开源大模型
2024-12-23 09:00

AGI大模型学习的博客 Ollama可以在本地CPU非常方便地部署许多开源的大模型。如 Facebook的llama3, 谷歌的gemma, 微软的phi3，阿里的qwen2 等模型。它基于llama.cpp实现，本地CPU推理效率非常高（当然如果有GPU的话，推理效率会更高）, 还...
ollama教程和效果演示，CPU就能跑在本地跑一个大语言模型 CPU+内存即可
2024-04-30 19:59

南七小僧的博客随着ChatGPT的兴起，LLM (Large Language Model，大语言模型) 已经成为人工智能和自然语言处理领域的热门话题。本篇文章我将和大家一起在自己的个人电脑上运行一个大语言模型。
ollama离线安装，在CPU运行它所支持的那些量化的模型
2024-05-12 21:34

双天至尊_stzz的博客 ollama离线安装，在CPU运行它所支持的哪些量化的模型总共需要修改两个点，第一：Ollama下载地址；第二：Ollama安装包存放目录。第二处修改，修改ollama安装目录。第一处修改，注释下载链接。
使用Ollama和OpenWebUI在CPU上玩转Meta Llama3-8B
2024-04-25 08:01

Tony Bai的博客 2024年4月18日，meta开源了Llama 3大模型[1]，虽然只有8B[2]和70B[3]两个版本，但Llama 3表现出来的强大能力还是让AI大模型界为之震撼了一番...Github上人气巨火的本地大模型部署和运行工具项目Ollama[5]也在第一时...
windows通过ollama快速部署大语言模型，CPU也可跑
2024-04-24 21:01

-喵侠客-的博客轻松实现大语言模型的本地部署，不用魔法、不用网络，本地即可实现文档智能问答。
设置Ollama模型跑在GPU上
2025-02-11 18:26

马立杰的博客 Ollama 对GPU 支持信息: ...按照上面设置后，控制台使用Ollama ps 显示GPU是主要负载，但是任务管理器中看到的却是GPU没怎么跑，CPU占用很高。是 NVIDIA 提供的用于监控 GPU 状态的工具，也可以用来检查 CUDA 的版本。
如何使用Ollama：在本地PC上运行AI模型的初学者指南
2024-09-27 11:03

实相无相的博客 Ollama是一个开源工具，让你能够在本地设备上轻松运行、创建和自定义大型语言模型。想象一下，拥有自己的私人AI助手，随时待命，而且不需要依赖云服务！创建一个名为Modelfile的文件在文件中定义你的模型，例如：...
Ollama 本地CPU部署开源大模型
2024-07-27 14:13

AI大模型-大飞的博客 Ollama可以在本地CPU非常方便地部署许多开源的大模型。如 Facebook的llama3, 谷歌的gemma, 微软的phi3，阿里的qwen2 等模型。完整支持的模型列表可以参考：[ollama.com/library]它基于llama.cpp实现，本地CPU推理...
ollama模型CPU轻量化部署
2024-06-17 14:33

云帆1212的博客 ollama 定义环境部署demo加载本地模型方法基本指令关闭开启ollamaollama 如何同时运行多个模型, 多进程ollama 如何分配gpu修改模型的存储路径。
如何用Ollama在CPU和GPU上部署大模型llama3（小白也能懂的教程）
2025-04-26 13:14

旧约Alatus的博客如何用Ollama在CPU和GPU上部署大模型llama3（小白也能懂的教程）
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月14日

ollama全跑在CPU上

4条回答 默认 最新

问题解答

问题事件

4条回答默认最新