Kidwind 2013-09-17 01:17 采纳率: 0%
浏览 987

非常奇怪的服务器故障,希望大家帮忙解决!

自从公司Web服务器换成Linux系统(Ubuntu 12.04LTS)后,服务器经常死机(大概几天会有一次吧,有时候是一个星期这样),症状为SSH连接上去后,提示输入用户名密码,输完密码后,介面就一直停住没有任何响应,一直搞不明白什么原因,无奈只能叫机房重启。
为了解决问题,后来部署了监控宝对服务器进行监控,发现服务器死机时,CPU的使用率到达了100%,但其中用户态使用率(%User)及内核态使用率(%System)相当底,甚至为0,但等待率(%Wait)几乎占了所有的资源,再观察CPU负载,也是相当高达到100多的负载。
CSDN移动问答
CSDN移动问答
一直搞不明是什么原因造成的,因为出现问题时CPU负载是急剧上升的,此时SSH根本没有办法连上去运行任何命令,有一次为解决问题,出问题时跑去机房想看看能不能登录得上去,结果也是一样,没法登录进系统。重启后观察系统的一些日志文件,也没有发现什么问题。
实在没有办法了,搞不懂是什么原因,各位帮我分析分析看有可能是什么原因造成的呢,谢谢!!!

  • 写回答

1条回答 默认 最新

  • 上海运维Q先生 2022-11-22 13:13
    关注

    90%是oom造成的.
    你可以考虑装个nmon或者手写脚本定时将top 10的进程写入日志文件.等下次死机时看这部分日志基本就能断定是哪个程序出现了问题.
    定位了具体进程后面排查就很简单了.

    评论

报告相同问题?

悬赏问题

  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器