如何使用nvidia-smi命令查看GPU当前功率？

如何使用 `nvidia-smi` 命令查看 GPU 当前功率？我执行 `nvidia-smi` 后输出信息繁多，但无法快速定位当前功耗数据。是否支持实时监控功率消耗？某些环境下显示的功率为“N/A”或数值长期不变，是驱动问题还是硬件限制？如何通过命令行参数直接获取功率值以便脚本调用？是否需要安装额外库或启用特定模式才能正确读取？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
秋葵葵 2025-10-12 16:20
关注
一、基础使用：如何通过 nvidia-smi 查看 GPU 当前功率？

在默认执行 nvidia-smi 命令后，终端会输出大量信息，包括显存使用、GPU 利用率、温度、风扇转速等。功率信息通常位于输出的“Power Draw”字段中，单位为瓦特（W）。

nvidia-smi # 输出示例片段： +-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.104.05 Driver Version: 535.104.05 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Temp Perf Pwr:Usage/Cap Memory-Usage GPU-Util | |===============================================| | 0 Tesla V100-SXM2-16GB 45C P0 48W / 300W | 1024MiB / 16384MiB | 0% | +-------------------------------+----------------------+----------------------+

其中 Pwr:Usage/Cap 表示当前功耗与最大功耗限制，如 “48W / 300W” 即当前使用 48 瓦，上限为 300 瓦。

二、精简输出：快速定位功率数据

为了从冗长输出中提取关键信息，可使用 --query-gpu 参数指定仅查询功率相关字段：

nvidia-smi --query-gpu=power.draw,power.limit --format=csv

输出结果将简化为 CSV 格式，便于脚本处理：

gpu_name power.draw [W] power.limit [W]
Tesla V100-SXM2-16GB 48.25 W 300.00 W
GeForce RTX 3090 215.75 W 350.00 W
T4 75.00 W 70.00 W
A100 N/A 400.00 W

该方式适用于自动化监控或集成到运维系统中。

三、实时监控：是否支持连续功率采样？

是的，nvidia-smi 支持周期性轮询模式，使用 -l 参数可实现秒级刷新：

nvidia-smi -l 1 --query-gpu=timestamp,power.draw,temperature.gpu --format=csv

此命令每秒输出一次时间戳、功耗和温度，可用于性能调优或能效分析。例如在深度学习训练期间观察功耗波动趋势。

四、异常现象分析：“N/A” 或数值不变的原因探究

当功率显示为 “N/A” 或长时间无变化时，可能涉及以下因素：

硬件限制：部分嵌入式或移动 GPU（如 Jetson 系列）不支持精确功耗上报。
驱动版本过旧：早期驱动未启用 RAPL（Running Average Power Limit）接口。
权限不足：非 root 用户在某些系统上无法访问 PMU（Power Management Unit）寄存器。
Firmware 锁定：服务器 BIOS 中禁用了动态功耗报告功能。

可通过如下命令验证驱动状态：

nvidia-smi -q -d POWER

若返回 “Not Supported”，则表明当前环境不支持功率监控。

五、脚本化调用：自动化获取功率值

在 Shell 脚本中提取当前功耗推荐使用：

POWER=$(nvidia-smi --query-gpu=power.draw --format=csv,noheader,nounits) echo "Current GPU Power: ${POWER} W"

Python 脚本可通过 subprocess 模块调用并解析：

import subprocess result = subprocess.run( ["nvidia-smi", "--query-gpu=power.draw", "--format=csv,noheader,nounits"], capture_output=True, text=True ) current_power = float(result.stdout.strip()) print(f"GPU Power Draw: {current_power:.2f} W")

六、进阶配置：是否需要额外库或启用特定模式？

一般情况下，只要满足以下条件即可正确读取功率：

NVIDIA 驱动已正确安装且版本 ≥ 418.xx
GPU 架构支持功耗监测（Kepler 及以上架构基本支持）
操作系统启用 ACPI 和 PCIe AER 支持

无需额外安装 Python 库（如 pynvml）即可使用 CLI 工具，但若需更高频率采样或更细粒度控制，建议使用 pyNVML：

pip install nvidia-ml-py3

其底层调用 NVML（NVIDIA Management Library），性能优于反复调用 CLI。

七、监控架构设计：基于 nvidia-smi 的可观测性方案

在生产环境中构建 GPU 功耗监控体系，可结合 Prometheus + Grafana 实现可视化。流程如下：
graph TD A[nvidia-smi 脚本采集] --> B[本地 Exporter] B --> C[Prometheus 抓取] C --> D[Grafana 展示面板] D --> E[告警规则触发] E --> F[邮件/钉钉通知]
通过定时任务每 10 秒采集一次 power.draw，写入指标数据库，形成完整的能效审计链路。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

gpu_name	power.draw [W]	power.limit [W]
Tesla V100-SXM2-16GB	48.25 W	300.00 W
GeForce RTX 3090	215.75 W	350.00 W
T4	75.00 W	70.00 W
A100	N/A	400.00 W

报告相同问题？

关注问题

nvidia-smi User Guide手册英文直译中文版
2025-07-15 11:06

通过nvidia-smi的查询选项，用户可以看到包括内存使用情况、时钟频率、功率消耗、温度等在内的GPU详细信息。这些信息对于识别系统中的性能瓶颈或异常状况非常有帮助。命令行工具还可以输出加密的调试日志，以帮助...
nvidia-smi 参数解释
2024-05-01 11:23

MonkeyKing.sun的博客是 NVIDIA System Management Interface 的缩写，这是一款用于监控和管理 NVIDIA GPU 设备的命令行工具。: 持久性模式的开关状态，这里是开启状态（On）。: 如果支持MIG（多实例GPU）的话，显示MIG模式的状态，这里...
cuda-smi-master_GPU_源码
2021-10-02 02:26

CUDA SMI工具是CUDA SDK的一部分，它提供了对GPU设备的管理功能，包括查看GPU的使用率、温度、内存使用情况、功率消耗等关键信息。源代码分析： 1. **设备查询**：CUDA SMI首先会枚举系统中的所有CUDA设备，这...
nvidia-smi输出解释
2025-04-16 10:03

dringlestry的博客 o CUDA Version: 12.2：表示当前系统中 CUDA 的版本，CUDA 是 NVIDIA 推出的并行计算平台和编程模型，用于在 NVIDIA GPU 上进行高性能计算。• Processes（进程信息）：这部分通常会显示使用 GPU 的进程的相关信息，...
linux下调节显卡GPU的功率功耗限制最大值
2023-01-16 16:57

子燕若水的博客可以使用 nvidia-smi 或通过 NVML API 以编程方式设置持久性模式。如下增加所有 GPU 的 SW Power Cap 限制，其中。您必须在每次启动服务器时增加功率限制并设置持久性。确保正在使用持久性模式。
解决CUDA报错：手把手教你关闭NVIDIA显卡独占模式（附nvidia-smi命令详解）
2025-11-18 10:38

r2s3t4的博客本文详细解析了NVIDIA显卡独占模式导致CUDA报错的问题，提供了通过nvidia-smi命令关闭独占模式的完整教程。从诊断工具使用到持久化配置，涵盖单卡与多GPU环境的解决方案，帮助开发者快速恢复GPU计算能力，解决'all ...
NVIDIA GPU使用指南[可运行源码]
2025-11-18 15:37

首先，nvidia-smi工具是NVIDIA提供的一个强大的命令行界面，用于监控和管理GPU的状态。通过该工具，用户可以查看GPU的温度、功耗、内存使用等详细信息。不仅如此，还可以实时监控GPU的运行状况，这对于维护GPU性能和...
cmd-bat-批处理-脚本-blender_debug_gpu.zip
2025-05-22 21:37

3. 检查GPU资源使用情况，比如通过“nvidia-smi”命令（对于NVIDIA显卡）来显示GPU利用率、温度、功率等信息。 4. 运行Blender并设置特定的渲染参数，以特定的配置运行Blender测试，以监控GPU在实际渲染过程中的表现...
cpu-gpu-lb:CPU-GPU负载平衡测试
2021-04-03 06:12

7. **GPU编程**：掌握GPU编程语言，如CUDA C++或OpenCL，理解其编程模型，包括设备内存模型、流式多处理器（SMs）和线程执行模式。 8. **库和框架**：熟悉利用像TensorFlow、PyTorch这样的深度学习框架，或者OpenCV...
NVIDIA GPU持久模式是什么？（驱动程序持久性 Driver Persistence Daemon 守护程序）
2020-01-17 09:11

Dontla的博客我们在跑程序时，分六批单独投喂给GPU计算和将六批整合成一批投喂给GPU计算，耗时是不同的，出现这种现象的原因是什么，值得我们思考我们大胆猜测，是否在GPU准备计算时，会有一个准备时间？搜索NVIDIA GPU持久...
Python-一个gpustat的web界面监测GPU集群节点负载状态
2019-08-10 08:28

`nvidia-smi` 是NVIDIA提供的管理工具，可以报告GPU的温度、功率消耗、内存使用情况以及正在运行的进程等。`gpustat` 对 `nvidia-smi` 的输出进行解析，然后格式化成易于阅读的文本。对于 `gpustat-web`，它是将 `...
GPU 故障处理指南（上）：常见问题与应对策略
2025-11-10 19:33

七宝大爷的博客本文系统性介绍了GPU常见故障的识别与排查方法。...针对各类问题，文章给出了多种编程语言（Bash、Python、C++）的实用检测脚本，以及温度监控、散热优化等具体建议，帮助用户快速定位和解决GPU故障问题。
GPU加速推理实测：在anything-llm中启用CUDA提升性能
2025-12-24 00:16

莱财一哥的博客在本地部署anything-llm时，启用CUDA可显著提升文档向量化和模型推理速度。实测显示，RTX 3060将知识库构建...通过合理配置PyTorch与HuggingFace组件，无需修改代码即可激活GPU并行计算能力，实现流畅的私有化RAG体验。
Qwen3-VL代理交互卡顿？GPU算力动态分配优化方案详解
2026-01-29 00:15

KX-EZ的博客本文介绍了在星图GPU平台上自动化部署Qwen3-VL-2B-Instruct镜像，以解决其代理交互卡顿问题。通过实施GPU算力动态分配优化方案，该平台能显著提升模型推理效率，使其流畅应用于图像描述、GUI操作等多模态交互场景。
Janus-Pro-7B保姆级教程：GPU利用率监控（nvidia-smi）与瓶颈定位
2026-01-19 07:13

Kiki-2189的博客本文介绍了在星图GPU平台上自动化部署Janus-Pro-7B多模态AI...通过使用nvidia-smi工具实时监控GPU利用率、显存和温度，用户可以快速诊断并优化模型运行效率，确保其在图片生成与理解等核心应用场景中稳定、高效地工作。
46、GPU 性能分析与工具使用指南
2025-09-19 11:54

a2b3c4d5e的博客本文介绍了GPU编程的关键要点与性能优化策略，详细讲解了常用GPU性能分析工具如nvidia-smi、nvprof、NVVP和Nsight的使用方法，并结合浅水波模拟实例展示了从物理方程到代码实现及性能分析的完整流程。文章还提供了...
Qwen3-4B-Thinking-GPT-5-Codex-Distill部署案例：科研团队AI编程助手
2026-01-12 08:09

SilvermistRaven28的博客本文介绍了如何在星图GPU平台上一键自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像，快速搭建AI编程助手。该镜像专为科研场景优化，能够理解科学意图，协助科研人员将复杂的数学公式或算法思想转化...
VibeThinker-1.5B推理性能优化：GPU利用率提升实战教程
2026-01-03 11:43

Ga Ou的博客本文介绍了如何在星图GPU平台上自动化部署VibeThinker-1.5B-WEBUI镜像，并针对该模型进行推理性能优化。通过调整模型精度、启用KV缓存和批处理等技巧，可将GPU利用率从不足30%提升至70%以上，显著加速其在数学解题和...
百川2-13B-4bits量化版实战教程：使用manage.sh logs命令实时追踪模型推理全过程
2026-01-23 01:43

顾凯之的博客本文介绍了如何在星图GPU平台上自动化部署百川2-13B-对话模型-4bits量化版 WebUI v1.0镜像，并利用其进行智能对话与文本生成。通过该平台，用户可以快速搭建并运行这一高效的大语言模型，轻松应用于代码生成、内容...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月12日

如何使用nvidia-smi命令查看GPU当前功率？

1条回答 默认 最新

一、基础使用：如何通过 nvidia-smi 查看 GPU 当前功率？

二、精简输出：快速定位功率数据

三、实时监控：是否支持连续功率采样？

四、异常现象分析：“N/A” 或数值不变的原因探究

五、脚本化调用：自动化获取功率值

六、进阶配置：是否需要额外库或启用特定模式？

七、监控架构设计：基于 nvidia-smi 的可观测性方案

问题事件

1条回答默认最新

一、基础使用：如何通过 `nvidia-smi` 查看 GPU 当前功率？