信息有点不全,判断不了什么问题。几点建议可以参考下
1. 最好别格式化namenode,还得找找问题。不能一有问题就重装集群的,测试环境还行,线上肯定不允许这样了
2. 怎么发现的没有日志更新了,可以"ll -t"看看日志目录最后是哪个文件更新了,别看错了
3. 检查下磁盘是不是出问题了
4. 集群不可用的时候,有一个问题很容易被忽略,就是网络是不是有调整了。防火墙是不是有调整?运维是不是调整了网络
5. 还有也可以回顾下最近是不是改什么配置问题了
有五台hadoop机器,1、2、3、4、5,其中1、2、3是namenode高可用,4、5是resourcemanager高可用,1上面有hive,由于环境搭建初期,对于1这台机器,内存不够,查看系统日志,发现其上的nn服务,jn服务等经常被系统oom,后发现,再次启动nn、jn、zkfc等服务后,1上面的nn、jn、zkfc、dn均无新日志更新,且其他节点也通讯不到1节点的jn,但是运行任务时发现此节点仍参加计算,且该节点的nn可设置为active,成为active后仍无日志更新。
此为application的截图
此为namenode日志的截图
加油,大佬们