大模型一直在跑cpu是怎么回事

问题遇到的现象和发生背景

ollama使用的时候，可以认到gpu卡，但是在使用过程中国，一直在跑cpu,是怎么回事？

操作环境、软件版本等信息

OS

设备名称  computer-i914900
处理器    Intel(R) Core(TM) i9-14900K   3.20 GHz
机带 RAM    64.0 GB (63.7 GB 可用) 
系统类型    64 位操作系统, 基于 x64 的处理器
笔和触控    没有可用于此显示器的笔或触控输入

nvidia-smi

C:\Users\Administrator>nvidia-smi
Thu Feb  6 15:45:58 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 572.13                 Driver Version: 572.13         CUDA Version: 12.8     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  Tesla V100-SXM2-16GB         TCC   |   00000000:01:00.0 Off |                    0 |
| N/A   32C    P0             23W /  300W |      10MiB /  16384MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

ollama serva

D:\Ollama>ollama serve
2025/02/06 15:39:50 routes.go:1125: INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:2 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:D:\\runingProject\\Ollama\\modules OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:200 OLLAMA_ORIGINS:[* http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://*] OLLAMA_RUNNERS_DIR:D:\\runingProject\\Ollama\\lib\\ollama\\runners OLLAMA_SCHED_SPREAD:false OLLAMA_TMPDIR: ROCR_VISIBLE_DEVICES:]"
time=2025-02-06T15:39:50.722+08:00 level=INFO source=images.go:753 msg="total blobs: 11"
time=2025-02-06T15:39:50.723+08:00 level=INFO source=images.go:760 msg="total unused blobs removed: 0"
time=2025-02-06T15:39:50.723+08:00 level=INFO source=routes.go:1172 msg="Listening on [::]:11434 (version 0.3.10)"
time=2025-02-06T15:39:50.724+08:00 level=INFO source=payload.go:44 msg="Dynamic LLM libraries [cpu cpu_avx cpu_avx2 cuda_v11 cuda_v12 rocm_v6.1]"
time=2025-02-06T15:39:50.724+08:00 level=INFO source=gpu.go:200 msg="looking for compatible GPUs"
time=2025-02-06T15:39:50.837+08:00 level=INFO source=gpu.go:292 msg="detected OS VRAM overhead" id=GPU-ae01e93c-a4e3-8b2e-29ec-ac0cc6065dac library=cuda compute=7.0 driver=12.8 name="Tesla V100-SXM2-16GB" overhead="306.7 MiB"
time=2025-02-06T15:39:50.838+08:00 level=INFO source=types.go:107 msg="inference compute" id=GPU-ae01e93c-a4e3-8b2e-29ec-ac0cc6065dac library=cuda variant=v12 compute=7.0 driver=12.8 name="Tesla V100-SXM2-16GB" total="15.9 GiB" available="15.6 GiB"

######## 运行情况

尝试过的解决方法

安装了历史多个版本驱动都不行

我想要达到的结果

大模型在运行的时候使用gpu进行运算

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2025-02-06 16:03
关注
以下回复引自免费微信小程序：皆我百晓生。如问题解决，还请采纳。如仍有疑问，请回复留言或私信博主，以便获得更精准的帮助。

这个问题似乎与你的计算机硬件配置有关。OLLAMA是一个语言模型的预训练模型，它依赖于GPU来加速计算。然而，在使用过程中，由于CPU的性能限制，OLLAMA可能无法在GPU上充分利用其强大的计算能力。

在这种情况下，你可能会遇到以下情况：

GPU卡过热：如果您的电脑温度过高，或者GPU卡被过度激活，可能导致OLLAMA无法充分利用其资源。
系统性能问题：操作系统或驱动程序的问题也可能导致OLLAMA无法正常运行。例如，系统可能没有正确安装显卡驱动，或者某些应用程序可能不支持特定类型的GPU。
内存不足：如果你的电脑内存不足以容纳大量的数据，OLLAMA可能会因内存不足而暂停工作。

解决这些问题的方法取决于具体的情况。如果你怀疑是硬件问题，你可以考虑更换一个更好的GPU。如果是系统问题，你需要检查并修复相应的驱动程序。如果是内存问题，你可能需要重新启动你的电脑，并尝试清理内存。如果你不确定是什么原因，建议联系OLLAMA的官方客服寻求帮助。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容