frozen__yogurt
frozen__yogurt
采纳率0%
2021-03-03 09:42

hadoop节点服务虽启动但无响应?

50
已结题

有五台hadoop机器,1、2、3、4、5,其中1、2、3是namenode高可用,4、5是resourcemanager高可用,1上面有hive,由于环境搭建初期,对于1这台机器,内存不够,查看系统日志,发现其上的nn服务,jn服务等经常被系统oom,后发现,再次启动nn、jn、zkfc等服务后,1上面的nn、jn、zkfc、dn均无新日志更新,且其他节点也通讯不到1节点的jn,但是运行任务时发现此节点仍参加计算,且该节点的nn可设置为active,成为active后仍无日志更新。

此为application的截图

此为namenode日志的截图

加油,大佬们

  • 点赞
  • 收藏
  • 复制链接分享

4条回答

  • technologist_03 CSDN技术专家团—feng 1月前

    信息有点不全,判断不了什么问题。几点建议可以参考下

    1. 最好别格式化namenode,还得找找问题。不能一有问题就重装集群的,测试环境还行,线上肯定不允许这样了

    2. 怎么发现的没有日志更新了,可以"ll -t"看看日志目录最后是哪个文件更新了,别看错了

    3. 检查下磁盘是不是出问题了

    4. 集群不可用的时候,有一个问题很容易被忽略,就是网络是不是有调整了。防火墙是不是有调整?运维是不是调整了网络

    5. 还有也可以回顾下最近是不是改什么配置问题了

    点赞 评论 复制链接分享
  • chanyue123 silentct 1月前

    1. 先规划下你的内存使用,保证所有进程启动后不要再内存溢出了,不然就是个死循环

    2. 关闭Hadoop集群,可以把1节点上的jn的数据存储目录删除掉,拷贝一份2或3上的jn的数据存储目录过来,注意目录的属主和权限不要改变

    3.启动hadoop集群,执行下hdfs dfsadmin -rollEdits

    点赞 评论 复制链接分享
  • bill20100829 歇歇 1月前

    有时候这种情况会发生。首先,停止所有服务,然后转到您的current目录并删除current目录。Hadoopcurrent目录也存储所有日志文件。通过删除current目录,再次启动所有服务。

    停止所有服务:

    $HADOOP_HOME/sbin/stop-all.sh

    停止所有服务后,应通过以下命令设置Namenode的格式。

    格式名称节点:

    $HADOOP_HOME/bin/hadoop namenode –format

    现在再次通过以下命令启动所有服务。

    启动所有服务:

    $HADOOP_HOME/sbin/start-all.sh

    解决方案2:

    有时Namenode进入了safe-mode。您需要通过以下命令离开安全节点。

    $HADOOP_HOME/bin/hdfs dfsadmin -safemode leave

    点赞 评论 复制链接分享
  • bill20100829 歇歇 1月前
    1. 管理员身份打开cmd 
    2. 输入并运行 stop-all.cmd
    3. hadoop namenode –format
    4. start-all.cmd

    马赛克是什么意思?

    检查一下配置文件

    点赞 评论 复制链接分享