错误起因
我使用了k3s+rancher做项目集群,当集群运行了一段时间之后,偶尔就会出现这个错误。
错误详情
首先就是集群下的所有项目还在,但是项目下的命名空间都检测不到了,什么工作负载、负载均衡之类的也通通检测不到了。
然后登陆宿主机使用命令行查看集群,比如kubectl get no/kubectl get po --all-namespaces,发现一切正常,之前的服务也运行正常,访问也没问题,仅仅就是rancher ui检测不到了。
错误排查
上次出现这个问题的时候,我尝试重启master节点,发现问题还在;又重启了所有节点,启动后问题就没了,一切都正常。然后就是正常运行一段时间,直到今天,问题又重现了。
我又尝试了在rancher ui上删除集群,然后重新import集群,问题也可以解决。
感觉这么重启也不是一个解决办法啊,所以问问大家有没有遇到过这个问题,或者有什么解决思路的?