自从公司Web服务器换成Linux系统(Ubuntu 12.04LTS)后,服务器经常死机(大概几天会有一次吧,有时候是一个星期这样),症状为SSH连接上去后,提示输入用户名密码,输完密码后,介面就一直停住没有任何响应,一直搞不明白什么原因,无奈只能叫机房重启。
为了解决问题,后来部署了监控宝对服务器进行监控,发现服务器死机时,CPU的使用率到达了100%,但其中用户态使用率(%User)及内核态使用率(%System)相当底,甚至为0,但等待率(%Wait)几乎占了所有的资源,再观察CPU负载,也是相当高达到100多的负载。
一直搞不明是什么原因造成的,因为出现问题时CPU负载是急剧上升的,此时SSH根本没有办法连上去运行任何命令,有一次为解决问题,出问题时跑去机房想看看能不能登录得上去,结果也是一样,没法登录进系统。重启后观察系统的一些日志文件,也没有发现什么问题。
实在没有办法了,搞不懂是什么原因,各位帮我分析分析看有可能是什么原因造成的呢,谢谢!!!
非常奇怪的服务器故障,希望大家帮忙解决!
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答
- 上海运维Q先生 2022-11-22 13:13关注
90%是oom造成的.
你可以考虑装个nmon或者手写脚本定时将top 10的进程写入日志文件.等下次死机时看这部分日志基本就能断定是哪个程序出现了问题.
定位了具体进程后面排查就很简单了.解决 无用评论 打赏 举报
悬赏问题
- ¥15 安卓adb backup备份应用数据失败
- ¥15 eclipse运行项目时遇到的问题
- ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
- ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
- ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站
- ¥50 成都蓉城足球俱乐部小程序抢票
- ¥15 yolov7训练自己的数据集
- ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
- ¥15 电力市场出清matlab yalmip kkt 双层优化问题
- ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)