Linux CPU负载高但top显示占用低，原因及排查方法？

Linux中常出现“系统平均负载（Load Average）高，但`top`/`htop`显示CPU使用率（%CPU）很低”的矛盾现象。根本原因在于：**负载反映的是就绪态+不可中断态（D状态）进程数，而`top`的%CPU仅统计可运行态（R）进程在CPU上的实际执行时间**。典型诱因包括： ① 大量进程阻塞在不可中断睡眠（如磁盘I/O、NFS挂载超时、内核锁争用），持续推高load但不消耗CPU； ② 短时高频进程频繁创建/退出（如fork炸弹雏形），`top`采样窗口难以捕获； ③ 内核线程卡死或硬件故障（如坏盘、RAID降级）导致`kswapd`、`kworker`等长期D状态。排查建议：`vmstat 1`查`r`（就绪队列长度）和`b`（不可中断进程数）；`ps aux | awk '$8 ~ /D/ {print}'`定位D状态进程；结合`iostat -x 1`、`dmesg -T`、`cat /proc/loadavg`交叉分析。切勿仅依赖`top`判断系统健康度。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

蔡恩泽 2026-01-24 10:00

关注

一、现象认知：什么是“高 Load 低 %CPU”的典型矛盾？

在生产环境中，运维/开发人员常观察到：uptime 或 cat /proc/loadavg 显示 1/5/15 分钟平均负载高达 20+，而 top 中 %Cpu(s) 行却显示 idle >95%，us/sy 总和不足 5%。这种“系统仿佛卡死，CPU 却闲着”的反直觉现象，本质不是监控误报，而是 Linux 负载（Load Average）与 CPU 使用率（%CPU）**统计口径根本不同**。

Load Average 是内核维护的 **就绪队列长度 + 不可中断睡眠（D 状态）进程数** 的指数衰减滑动平均值；而 top 的 %CPU 仅对处于 R（Running/Runnable）状态 的进程，在采样周期内实际占用 CPU 时间片的比例求和。二者维度正交——高 Load 完全可以零 CPU 消耗。

二、原理深挖：Linux 进程状态与负载计算的内核级机制

根据 man 1 ps 和内核源码（kernel/sched/loadavg.c），Load Average 的三个数值分别对应：

r：当前就绪态（R）进程数（含正在运行和等待调度的）
D：不可中断睡眠态（Uninterruptible Sleep）进程数——关键！
Load = r + D（瞬时近似），经 1/5/15 分钟加权平均

而 D 状态进程常见于：__wait_on_bit() 等待磁盘 I/O 完成、NFS 客户端挂起、ext4/jbd2 日志锁争用、RAID 阵列重建阻塞等场景。此时进程不占 CPU，但计入 Load，且无法被信号中断（kill -9 无效）。

三、诱因全景图：三大类高 Load 低 CPU 根因分类与特征

类别	典型表现	关键诊断命令	风险等级
① I/O 阻塞型（最常见）	`ps` 大量 `D` 进程，`iostat -x 1` 显示 `%util ≈ 100%`、`await > 100ms`	`lsof +D /mnt/nfs`, `blktrace -d /dev/sdb`	★★★★☆
② 进程风暴型（隐蔽性强）	`vmstat 1` 中 `fork` 列飙升，`/proc/loadavg` 的 `last pid` 值激增	`pidstat -t 1`, `perf record -e sched:sched_process_fork`	★★★☆☆
③ 内核/硬件故障型（最危险）	`dmesg -T \| tail -50` 含 `end_request: I/O error`、`ataX.00: failed command`	`smartctl -a /dev/sda`, `mdadm --detail /dev/md0`	★★★★★

四、实战排查：五步交叉验证法（附命令链）

Step 1：确认 Load 构成 —— cat /proc/loadavg 查看实时 r+b 值（第4字段为 D 进程数）
Step 2：分离 R/D 进程 —— ps -eo stat,pid,comm,user,pcpu,pmem --sort=-pcpu | head -20 并过滤 D：
ps aux | awk '$8 ~ /^D/ {print $0}' | wc -l
Step 3：定位 I/O 瓶颈 —— iostat -xmk 1 3 关注 r/s, w/s, avgqu-sz, await 及设备利用率
Step 4：捕获内核线索 —— dmesg -T --level=err,warn | tail -30 + journalctl -k -S "2 hours ago" | grep -i "fail\|error\|timeout"
Step 5：追踪进程栈 —— 对任意 D 进程 PID 执行：cat /proc/<PID>/stack 或 sudo gdb -p <PID> -ex "bt" -ex "quit"

五、可视化决策：高 Load 低 CPU 排查流程图


flowchart TD
    A[Load Average > 阈值?] -->|Yes| B{r + b 值来源?}
    B -->|r 高| C[检查 CPU 调度竞争
ps -eo pid,ppid,ni,pri,pcpu,stat --sort=-pcpu]
    B -->|b 高| D[检查 D 进程
ps aux | awk '$8~/D/{print}']
    D --> E{D 进程是否集中在某设备?}
    E -->|是| F[iostat -x 1
lsof -p <PID>]
    E -->|否| G[dmesg -T
smartctl -a]
    F --> H[优化 I/O 或更换硬件]
    G --> I[修复内核模块或替换故障盘]

六、防御性实践：从监控到告警的工程化建议

避免事后救火，需建立多维监控体系：

在 Prometheus + Grafana 中新增指标：node_load1 / count by(instance)(node_cpu_seconds_total{mode="idle"})（负载/CPU空闲比）
配置告警规则：当 count by(instance)(process_status{state="D"}) > 5 持续 2 分钟即触发 P2 告警
定期执行健康检查脚本：check_load_io.sh 自动聚合 vmstat、iostat、ps D 输出结构化 JSON 上报 ELK
对 NFS/CIFS 挂载强制启用 soft,intr,timeo=10,retrans=3 参数，避免单点挂起拖垮全局 Load

记住：Load Average 是系统压力的“水位计”，不是“发动机转速表”。它沉默地警告你——有进程在黑暗中等待，而你的 CPU 正在空转。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

linux 排查cpu负载过高原因
2021-07-01 17:00

A狼行天下A的博客 CPU负载查看方法：使用vmstat查看系统维度的CPU负载使用top查看进程维度的CPU负载一、测试工具 1、使用 vmstat 查看系统纬度的 CPU 负载：可以通过 vmstat 从系统维度查看 CPU 资源的使用情况。用法说明： ...
cpu负载过高产生的原因及排查
2019-12-24 11:11

灬紫荆灬的博客之前面试被问到，造成CPU load过高的原因有哪些？如何快速排查其原因？开一贴，总结该相关知识什么是cpu load 值 to...
aforge调用摄像头cpu占用过高_排查CPU占用过高的问题
2020-12-26 18:25

臀总的博客可以搜索微信公众号【Jet 与编程】查看更多精彩文章原文发布于自己的博客平台【http://www.jetchen.cn/cpu-error/】背景最近测试服出现了CPU异常高的情况，占用率接近 100%，所以写篇文章简单地记录下碰到这种情况，...
JVM服务器在线问题排查方法（CPU占用率高、内存溢出等问题排查）
2021-08-03 15:26

我爱编程编程不爱我的博客乍一看可能是网络抖动或者redis配置问题，但是深究之下发现其实是服务cpu负载特别高导致的，今天就总结一下各种服务器问题解决思路 CPU占用率高针对CPU占用太高的问题，我们可以先用top命令看下是哪个进程导致的...
java运维: 负载分析及问题排查极简教程(linux+java)
2018-06-07 21:16

zhugejianzhan的博客负载分析及问题排查极简教程 Hollis 平常的工作中，在衡量服务器的性能时，经常会涉及到几个指标，load、cpu、mem、qps、rt等。每个指标都有其独特的意义，很多时候在线上出现问题时，往往会伴随着某些指标的异常。...
Tomcat进程占用CPU过高怎么办？
2021-08-01 21:57

JavaEdge聊AI的博客本文总结了CPU使用率过高的排查方法，通过实际案例演示了如何定位线程消耗CPU的问题。首先通过top命令找到高CPU进程，再用top -H -p pid查看具体线程，通过jstack分析线程栈定位问题代码。当单个线程CPU占用不高但...
linux-monitoring.zip_Linux/Unix编程_Java_
2021-08-11 16:21

通过`top`或`htop`命令，可以实时查看各个进程的CPU占用情况，了解是否有高CPU使用率的进程影响系统性能。此外，还可以利用`mpstat`命令获取每个CPU核心的详细统计信息。 2. **内存监控**：内存管理对系统性能有...
服务器卡顿、CPU飙升、接口负载剧增，如何定位到Java代码？
2023-06-28 07:15

哪吒的博客第1步，使用top命令找到占用CPU高的进程。第2步，使用ps –mp命令找到进程下占用CPU高的线程ID。第3步，使用printf命令将线程ID转换成十六进制数。第4步，使用jstack命令输出线程运行状态的日志信息。下面详细...
Linux系统top命令详细指南
2025-08-16 15:03

岚叔运维的博客 Top）是 Linux 系统中最常用的，能够动态显示系统进程的资源占用情况（CPU、内存、磁盘 I/O 等），是排查性能问题的核心工具之一。它类似于 Windows 的“任务管理器”，但功能更强大、更灵活。
VSCode智能体CPU占用过高？资深架构师亲授5步诊断法
2026-01-07 09:49

BreakVein的博客解决VSCode自定义智能体性能瓶颈，资深架构师分享5步精准诊断法。适用于高负载开发环境，涵盖进程监控、扩展分析与资源配置优化，快速定位CPU占用过高问题。方法实用高效，值得收藏。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月24日