gx88998 2025-11-10 16:26 采纳率: 100%

已结题

promtheus-server的pod出现这个日志，请问是什么原因？之前都是好的(操作系统-linux)

报错如上图内容，之前是没问题的，重启了pod之后出现上图报错

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-11-10 16:43

关注

让【宝码香车】来帮您解答，本回答参考DeepSeek编写，并整理提供。

如果答案能帮助您，请采纳，非常感谢！
.
每日一句正能量，让它带给您好心情：努力的人，自带光芒，走到哪里都能照亮一片天。
.

根据您提供的日志，Prometheus Server 主要存在两个核心问题：

1. Kubernetes API 权限问题

错误现象：

cannot List resource "nodes/services/pods/endpoints" in API group "" at the cluster scope

根本原因：
Prometheus 使用的 ServiceAccount znaqyxbzpt:default 缺少必要的 Kubernetes API 权限，无法列出集群范围的资源（nodes、services、pods、endpoints等）。

解决方案：

检查并修复 ClusterRole 和 ClusterRoleBinding：

# 检查当前的 ClusterRole 和 ClusterRoleBinding
kubectl get clusterrole,clusterrolebinding -n znagyxbzpt | grep prometheus


# 检查 ServiceAccount 是否存在
kubectl get serviceaccount -n znagyxbzpt

创建或更新必要的 RBAC 权限：

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: prometheus-k8s
rules:
- apiGroups: [""]
  resources:
  - nodes
  - nodes/proxy
  - services
  - endpoints
  - pods
  verbs: ["get", "list", "watch"]
- apiGroups:
  - extensions
  resources:
  - ingresses
  verbs: ["get", "list", "watch"]
- nonResourceURLs: ["/metrics"]
  verbs: ["get"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: prometheus-k8s
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: prometheus-k8s
subjects:
- kind: ServiceAccount
  name: default  # 或您的具体 ServiceAccount 名称
  namespace: znagyxbzpt

2. Alertmanager 连接超时问题

错误现象：

Error sending alert err="Post \"http://prometheus-alertmanager:80/api/v1/alerts\": context deadline exceeded"

根本原因：
Prometheus 无法在超时时间内连接到 Alertmanager。

解决方案：

检查 Alertmanager 状态：

# 检查 Alertmanager Pod 状态
kubectl get pods -n znagyxbzpt | grep alertmanager


# 检查 Alertmanager 服务
kubectl get svc -n znagyxbzpt | grep alertmanager


# 检查网络连通性
kubectl exec -it prometheus-server-pod -n znagyxbzpt -- nc -zv prometheus-alertmanager 80

检查 Prometheus 配置中的 Alertmanager 配置：

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - prometheus-alertmanager:80
    # 可以尝试增加超时时间
    timeout: 10s

3. 综合排查步骤

验证 RBAC 配置：

kubectl auth can-i list nodes --as=system:serviceaccount:znagyxbzpt:default
kubectl auth can-i list pods --as=system:serviceaccount:znagyxbzpt:default

重启相关组件：

# 重启 Prometheus（在修复 RBAC 后）
kubectl delete pod -n znagyxbzpt prometheus-server-64759849¢9-47919


# 检查 Alertmanager 并重启
kubectl get pods -n znagyxbzpt | grep alertmanager

检查事件日志：

kubectl get events -n znagyxbzpt --sort-by=.lastTimestamp

总结

问题主要是由于：

RBAC 权限不足：ServiceAccount 缺少必要的集群级别资源列表权限
网络连接问题：Prometheus 无法连接到 Alertmanager

建议先修复 RBAC 权限问题，然后检查 Alertmanager 的网络连通性。重启后出现此问题可能是由于集群权限配置发生了变化。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

78-20、prometheus介绍
2025-05-12 12:51

向新35°的博客 Node Exporter：收集服务器的 CPU、内存、磁盘等系统指标JMX Exporter：收集 Java 应用的 JMX 指标应用自身也可以直接暴露 Prometheus 格式的指标端点Prometheus 按照配置的时间间隔（如每秒、每 15 秒）定期拉取...
【无监控，不运维】监控之Prometheus
2022-10-26 19:45

眼下一颗柠檬的博客 Prometheus是一个开源的服务监控系统和时序数据库，其提供了通用的数据模型和快捷数据采集、存储和查询接口。它的核心组件Prometheus server会定期从静态配置的监控目标或者基于服务发现自动配置的目标中进行拉取...
k8s中部署prometheus监控告警系统-prometheus系列文章第一篇
2020-05-19 01:22

韩先超的博客前言本篇文章主要介绍k8s集群中部署prometheus，并且配置prometheus的动态、静态服务发现，实现监控容器、物理节点、service、pod等资源指标，配置promethe...
【云原生】Prometheus 监控系统的初步了解与系统搭建
2023-01-26 10:59

站在这别动，我去给你买橘子的博客 promethues是一个开源的系统监控和报警系统，现在已经加入到CNCF基金会，成为继k8s之后第二个在CNCF托管的项目，在kubernetes容器管理系统中，通常会搭配prometheus进行监控，同时也支持多种exporter采集数据，还...
Prometheus 监控系统的初步了解与系统搭建
2024-06-17 08:09

王zk0526的博客 promethues 是一个开源的系统监控和报警系统，现在已经加入到CNCF基金会，成为继k8s之后第二个在CNCF托管的项目，在kubernetes容器管理系统中，通常会搭配prometheus进行监控，同时也支持多种exporter采集数据，还...
Prometheus 监控系统的概念与系统搭建
2024-06-12 15:44

空中连线的博客首先可以肯定zabbix和Prometheus都是非常优秀的监控系统，但从选择上，可以根据实际需求来确定合适的监控系统。zabbix产生时间更为长，基于c语言开发，Zabbix上手难度要低很多，对于传统的服务器、系统、网络等都有...
夜莺监控（ Nightingale ），看这一篇就够了。（介绍、部署、配置、优化、自定义）
2023-06-19 16:06

西原一点红的博客夜莺监控（ Nightingale ），看这一篇就够了。（介绍、部署、配置、优化、自定义
云原生监控系统Prometheus：基于Prometheus构建智能化监控告警系统
2023-10-07 01:16

cronaldo91的博客（1）概念Prometheus 是一个开源的服务监控系统和时序数据库（TDSB），其提供了通用的数据模型和快捷数据采集、存储和查询接口。它的核心组件Prometheus server会定期从静态配置的监控目标或者基于服务发现自动配置...
Prometheus监控kubernetes
2021-12-21 11:31

攻城狮JasonLong的博客这里我们通过Deployment部署Prometheus Server实例，创建prometheus-deployment.yml文件，并写入以下内容: apiVersion: v1 kind: "Service" metadata: name: prometheus labels: name: prometheus spec: ports: - ...
Prometheus 监控平台部署与应用
2025-08-06 14:46

kgcc的博客多维数据模型，可以按照实例，服务，端点和方法之类的维度随意对数据进行切片和切块操作简单，可以随时随地部署监控服务，甚至在本地工作站上，而无需设置分布式存储后端或重新配置环境可扩展的数据收集和分散的架构...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月10日