黎小葱 2025-10-13 12:50 采纳率: 97.7%

已采纳

CentOS系统下如何查看显卡型号及驱动状态？

在CentOS系统中，如何通过命令行准确查看显卡型号及当前驱动加载状态？特别是在无图形界面的服务器环境中，使用`lspci`命令虽可识别显卡硬件信息，但难以确认是否已正确加载NVIDIA或AMD等专有驱动。常见疑问包括：如何区分开源驱动（如nouveau）与闭源驱动（如nvidia）的启用状态？如何结合`lspci`、`dmesg`、`lsmod`和`nvidia-smi`（若安装）等工具全面判断显卡驱动工作情况？该问题在部署GPU计算、深度学习环境时尤为关键。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

大乘虚怀苦 2025-10-13 12:51

关注

一、基础信息获取：通过 lspci 识别显卡硬件型号

在无图形界面的 CentOS 服务器环境中，首要步骤是确认系统中安装的显卡型号。最常用且可靠的命令是 lspci，它能列出所有 PCI 设备信息。

lspci | grep -i vga
lspci | grep -i 3d
lspci | grep -i display

上述命令可筛选出与显卡相关的条目。例如输出可能为：

01:00.0 VGA compatible controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
02:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] Instinct MI210

通过该输出可明确显卡品牌（NVIDIA/AMD）、具体型号（如 Tesla V100、MI210）以及总线地址（如 01:00.0），为后续驱动排查提供硬件依据。

二、驱动模块加载状态分析：使用 lsmod 与 modinfo

仅识别硬件不足以判断驱动是否正常工作。需进一步检查内核模块加载情况。Linux 中可通过 lsmod 查看当前已加载的模块。

lsmod | grep nouveau
lsmod | grep nvidia
lsmod | grep amdgpu
lsmod | grep radeon

模块名	对应驱动类型	典型用途
nouveau	NVIDIA 开源驱动	默认启用，不支持 CUDA
nvidia	NVIDIA 闭源驱动	CUDA/GPU 计算必需
amdgpu	AMD 开源驱动	支持 ROCm
radeon	旧版 AMD 开源驱动	适用于老款 GPU

若看到 nouveau 被加载而未见 nvidia，则说明系统仍在使用开源驱动，可能阻碍专有驱动运行。

三、结合 dmesg 分析内核级驱动初始化日志

dmesg 提供了内核启动过程中设备探测和驱动加载的详细日志，可用于验证显卡驱动是否成功初始化。

dmesg | grep -i nvidia
dmesg | grep -i amd
dmesg | grep -i gpu

典型输出示例：

[ 5.123456] nvidia: module loaded
[ 5.124000] nvidia 0000:01:00.0: enabling device (0000 -> 0003)
[ 5.125123] NVRM: loading NVIDIA UNIX x86_64 Kernel Module 535.129.03
[ 5.130000] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver

若出现“Failed to initialize”或“GPU has fallen off the bus”等错误，则表明驱动加载异常或硬件通信失败。

四、高级诊断工具集成：nvidia-smi 与 rocm-smi 的使用场景

对于已安装 NVIDIA 驱动的系统，nvidia-smi 是最直接的驱动功能验证工具。其输出包含驱动版本、GPU 利用率、温度及内存使用等关键指标。

nvidia-smi

正常输出应类似：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03   Driver Version: 535.129.03   CUDA Version: 12.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:00:1B.0 Off |                    0 |
| N/A   38C    P0    35W / 300W |      0MiB / 16384MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

若提示“NVIDIA-SMI has failed because it couldn't communicate with the driver”，则说明驱动虽可能加载但服务未正常启动，或存在版本不匹配问题。

五、综合判断流程图：多工具协同诊断策略

graph TD A[开始诊断显卡驱动状态] --> B{lspci 是否识别显卡?} B -- 否 --> C[检查硬件连接或BIOS设置] B -- 是 --> D{lsmod 是否加载专有驱动?} D -- 未加载 --> E{是否存在冲突驱动? 如 nouveau} E -- 是 --> F[屏蔽 nouveau 并重装专有驱动] D -- 已加载 --> G{dmesg 是否有错误日志?} G -- 有错误 --> H[分析错误码并修复依赖/配置] G -- 无错误 --> I{nvidia-smi 是否可用?} I -- 可用 --> J[驱动工作正常] I -- 不可用 --> K[重新安装驱动或更新内核模块]

此流程图展示了从硬件识别到最终功能验证的完整路径，适用于生产环境中的 GPU 故障排查。

六、实战建议与最佳实践

在部署深度学习或高性能计算环境时，推荐以下操作流程：

禁用开源驱动（如 nouveau）：编辑 /etc/modprobe.d/blacklist.conf 添加 blacklist nouveau 和 options nouveau modeset=0
确保 DKMS 安装以支持跨内核版本驱动兼容
使用官方 RPM 包或 runfile 安装 NVIDIA 驱动，并校验签名
定期通过脚本自动化检测驱动状态，集成至监控系统
对多 GPU 系统使用 nvidia-smi -L 列出所有设备实例
利用 journalctl -u nvidia-persistenced 检查守护进程运行状态
在容器化环境中（如使用 NVIDIA Container Toolkit），验证 runtime 配置有效性
保留多个驱动版本以便快速回滚
记录每次驱动变更前后的 dmesg 快照用于对比分析
结合 lshw -c video 获取更详细的设备能力描述

这些实践有助于构建稳定、可维护的 GPU 计算平台。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

centos8安装显卡驱动
2021-12-31 19:52

会编程的小范闲的博客 1、查看显卡型号 ```powershell 命令：lspci | grep -i vga 输出：01:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1) 2、查看系统内核命令：uname -r 输出：3.10.0-...
华为SM750显卡驱动
2018-03-17 17:02

标题中的“华为SM750显卡驱动”指的是华为公司为特定型号的显卡——SM750设计的驱动程序。驱动程序是操作系统与硬件设备之间的桥梁，它允许操作系统识别和控制硬件设备，确保硬件设备正常工作。在IT领域，为不同硬件...
centos7 安装显卡驱动及cuda10.2
2022-03-24 14:55

'离开以后'的博客文章目录前言CentOS 7下安装显卡驱动1. [操作系统](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements)2. [软件更新]...
Centos7.6安装GPU驱动[项目源码]
2025-11-22 11:09

在CentOS 7.6系统上安装NVIDIA RTX 3080显卡驱动的详细步骤首先从安装基础环境开始，包括GCC和内核开发包。GCC是GNU编译器集合，是编译C、C++等多种编程语言的工具链，对于在Linux环境下进行软件开发至关重要。内核...
linux系统3090&4090显卡驱动安装&检查
2024-09-25 12:42

云计算码喽-橘皮的博客 linux操作系统安装nvidia驱动，遇到异常的检查
centos下如何用python检测显卡信息
2024-08-09 04:38

何书欣的博客 CentOS下使用Python检测显卡信息的项目方案在现代计算机系统中，显卡（GPU）扮演着至关重要的角色，尤其是在...本文将介绍一个在CentOS系统下使用Python检测显卡信息的项目方案。项目背景在许多高性能计算平台...
Linux CentOS 7 系统安装 NVIDIA RTX 4090 显卡存在的性能瓶颈分析
2025-03-20 15:18

学亮编程手记的博客【代码】Linux CentOS 7 系统安装 NVIDIA RTX 4090 显卡存在的性能瓶颈分析。
CentOS7安装NVIDIA显卡（型号：GeForce GTX 1050 Ti）及CUDA笔记
2019-04-25 08:57

肖永威的博客 CentOS7安装NVIDIA显卡（型号：GeForce GTX 1050 Ti）笔记，包括过程中CUDA版本不一致，环境配置等坑。
适用于_Linux_Debian_12_安装Tesla_P4_P40等GPU的显卡Cuda和驱动_
2024-09-22 22:48

而为了充分发挥这些GPU的潜力，就需要安装相应的CUDA工具包和显卡驱动。 CUDA是NVIDIA推出的一个并行计算平台和编程模型，它允许开发者使用NVIDIA的GPU进行通用计算，即GPU计算。CUDA的全称是Compute Unified ...
Linux系统下CUDA环境安装详细指南
2025-07-06 19:07

在IT领域，CentOS 7是一种广泛使用的开源操作系统，而CUDA是NVIDIA推出的用于GPU加速计算的平台和编程模型。CUDA 7.5作为其一个版本，为开发者提供了诸多改进和新特性。本指南将介绍如何在CentOS 7上安装CUDA 7.5。 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月13日