K8S部署二进制集群过程中calico一直报错

参考的calico官网，安装calico过程如下：
（1）、tigera-operator.yaml和custom-resources.yaml文件下载到服务器上

（2）、执行kubectl create -f tigera-operator.yaml，安装过程未报错

（3）、修改配置文件custom-resources.yaml，加入如下配置内容
nodeAddressAutodetectionV4:
interface: ens33
确定所有网卡是ens33

（4）、执行kubectl create -f custom-resources.yaml，安装过程未报错

（5）、查看calico相关pod，pod处于running状态

NAME                                       READY   STATUS    RESTARTS   AGE
calico-kube-controllers-6696b5fc97-hlb84   1/1     Running   0          2m33s
calico-node-28flc                          1/1     Running   0          2m34s
calico-node-p9tcg                          1/1     Running   0          2m34s
calico-typha-9f54f8447-sgpnl               1/1     Running   0          2m34s
csi-node-driver-67h28                      2/2     Running   0          2m33s
csi-node-driver-wgwvs                      2/2     Running   0          2m33s

（6）、执行7.

kubectl taint nodes --all node-role.kubernetes.io/control-plane-


```，结果如下：

```xml
taint "node-role.kubernetes.io/control-plane" not found
taint "node-role.kubernetes.io/control-plane" not found

后查看pod状态也正常

2.查看calico pod相关信息始终报错：

Normal   Pulling    27m   kubelet            Pulling image "docker.io/calico/pod2daemon-flexvol:v3.28.2"
  Normal   Scheduled  27m   default-scheduler  Successfully assigned calico-system/calico-node-rhrj9 to dk8s-work1
  Normal   Pulled     27m   kubelet            Successfully pulled image "docker.io/calico/pod2daemon-flexvol:v3.28.2" in 10.195808051s
  Normal   Created    27m   kubelet            Created container flexvol-driver
  Normal   Started    27m   kubelet            Started container flexvol-driver
  Normal   Pulling    27m   kubelet            Pulling image "docker.io/calico/cni:v3.28.2"
  Normal   Started    26m   kubelet            Started container install-cni
  Normal   Pulled     26m   kubelet            Successfully pulled image "docker.io/calico/cni:v3.28.2" in 51.718175648s
  Normal   Created    26m   kubelet            Created container install-cni
  Normal   Pulling    26m   kubelet            Pulling image "docker.io/calico/node:v3.28.2"
  Normal   Pulled     25m   kubelet            Successfully pulled image "docker.io/calico/node:v3.28.2" in 50.979018706s
  Normal   Created    25m   kubelet            Created container calico-node
  Normal   Started    25m   kubelet            Started container calico-node
  Warning  Unhealthy  25m   kubelet            Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to connect to BIRDv4 socket: dial unix /var/run/calico/bird.ctl: connect: connection refused
  Warning  Unhealthy  25m   kubelet            Readiness probe failed: 2024-11-06 07:59:09.401 [INFO][231] confd/health.go 202: Number of node(s) with BGP peering established = 0
calico/node is not ready: BIRD is not ready: BGP not established with 192.168.100.186

或：

Warning  Unhealthy       42m   kubelet          Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to connect to BIRDv4 socket: dial unix /var/run/bird/bird.ctl: connect: no such file or directory
```xml

其它说明：
custom-resources.yaml即使不加入配置nodeAddressAutodetectionV4:
      interface: ens33
也报同样的错误。

工作节点端口查看如下看上去似乎已经建立了连接：
netstat -ltunp | grep 179
tcp        0      0 0.0.0.0:179             0.0.0.0:*               LISTEN      12607/bird

lsof -i:179
COMMAND   PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
bird    12607 root    7u  IPv4  68970      0t0  TCP *:bgp (LISTEN)
bird    12607 root    8u  IPv4  76064      0t0  TCP dk8s-work1:bgp->dk8s-work2:55595 (ESTABLISHED)

/var/run/bird/bird.ctl文件calico刚部署完是存在的，但是重启节点后不存在了

通过ip link命令查看没有br开头的多余虚拟网卡，并且删除了一部分state DOWN的网卡也没起作用，一直的bird的错误。
版本信息如下：OS:CENTOS7,
calico version:v3.28.2
K8S:v1.21.10

网上搜索了几个方法（如加入nodeAddressAutodetectionV4识别网卡的配置）均不起作用，请教如何处理此错误

补充内容：

```xml
1.ens33是正确配置在网卡上的IP地址，并且集群中无重复
[root@dk8s-work1 ~]# ip addr show ens33
2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 00:0c:29:1b:c2:fb brd ff:ff:ff:ff:ff:ff
    inet 192.168.100.185/24 brd 192.168.100.255 scope global noprefixroute ens33
       valid_lft forever preferred_lft forever
    inet6 fe80::89d2:8fb4:d1c9:74f/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever

[root@dk8s-work2 ~]# ip addr show ens33
2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 00:0c:29:7e:94:ac brd ff:ff:ff:ff:ff:ff
    inet 192.168.100.186/24 brd 192.168.100.255 scope global noprefixroute ens33
       valid_lft forever preferred_lft forever
    inet6 fe80::f470:3449:c28b:1f02/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever
2.节点间通讯正常
[root@dk8s-work1 ~]# ping dk8s-work2
PING dk8s-work2 (192.168.100.186) 56(84) bytes of data.
64 bytes from dk8s-work2 (192.168.100.186): icmp_seq=1 ttl=64 time=0.455 ms
64 bytes from dk8s-work2 (192.168.100.186): icmp_seq=2 ttl=64 time=0.357 ms
64 bytes from dk8s-work2 (192.168.100.186): icmp_seq=3 ttl=64 time=0.288 ms
64 bytes from dk8s-work2 (192.168.100.186): icmp_seq=4 ttl=64 time=0.298 ms
64 bytes from dk8s-work2 (192.168.100.186): icmp_seq=5 ttl=64 time=0.287 ms

[root@dk8s-work2 ~]# ping dk8s-work1
PING dk8s-work1 (192.168.100.185) 56(84) bytes of data.
64 bytes from dk8s-work1 (192.168.100.185): icmp_seq=1 ttl=64 time=0.246 ms
64 bytes from dk8s-work1 (192.168.100.185): icmp_seq=2 ttl=64 time=0.300 ms
64 bytes from dk8s-work1 (192.168.100.185): icmp_seq=3 ttl=64 time=0.303 ms
64 bytes from dk8s-work1 (192.168.100.185): icmp_seq=4 ttl=64 time=0.240 ms
3.179端口节点间可以连接
[root@dk8s-work1 ~]# telnet 192.168.100.186 179
Trying 192.168.100.186...
Connected to 192.168.100.186.
Escape character is '^]'.
        ?    d " @xA EFG

[root@dk8s-work2 ~]# telnet 192.168.100.185 179
Trying 192.168.100.185...
Connected to 192.168.100.185.
Escape character is '^]'.
        ?    d " @xA EFG

4.日志
（1）、calico-node Pod 日志
2024-11-14 01:42:12.192 [INFO][58] felix/route_table.go 1153: Failed to get interface; it's down/gone. error=Link not found ifaceName="vxlan.calico" ifaceRegex="^vxlan.calico$" ipVersion=0x4
2024-11-14 01:42:12.192 [ERROR][58] felix/route_table.go 920: Failed to get link attributes error=interface not present ifaceRegex="^vxlan.calico$" ipVersion=0x4
2024-11-14 01:42:12.240 [INFO][58] felix/vxlan_mgr.go 425: Failed to get VXLAN tunnel device, assuming it isn't present error=Link not found
（2）、calico-kube-controllers Pod 日志
无错误内容

5.bird启动及命令无法使用
[root@dk8s-work1 ~]# systemctl start bird
Failed to start bird.service: Unit not found.
[root@dk8s-work1 ~]# birdc
bash: birdc: command not found...

6.calico版本降低了，无效；经查询目前所使用的CALICO版本与K8S版本是匹配的

7.custom-resources.yaml中改成默认找网卡还是报一样的错误

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

30条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师 Java领域新星创作者 2024-11-07 16:24
关注
获得0.45元问题酬金
引用于豆包

问题分析
BIRD相关错误：从报错信息“Warning Unhealthy... Readiness probe failed: calico/node is not ready: BIRD is not ready...”可以看出，Calico的健康检查出现问题，主要是和BIRD组件有关。BIRD是Calico用于处理BGP（Border Gateway Protocol）路由的组件。
Socket连接问题：报错中提到“unable to connect to BIRDv4 socket: dial unix /var/run/calico/bird.ctl: connect: connection refused”和“unable to connect to BIRDv4 socket: dial unix /var/run/bird/bird.ctl: connect: no such file or directory”，这表明Calico组件在尝试通过Unix套接字与BIRD通信时出现问题。可能是BIRD服务没有正确启动或者套接字文件的权限、路径等出现问题。
文件缺失问题：提到“/var/run/bird/bird.ctl文件Calico刚部署完是存在的，但是重启节点后不存在了”，这可能是由于服务启动顺序或者文件系统配置导致的。在Calico的工作流程中，这个文件对于控制和查询BIRD状态很重要。
网络连接表象与实际问题：虽然通过“netstat -ltunp | grep 179”和“lsof -i:179”看到端口似乎建立了连接，但这可能只是部分连接建立成功，BGP协议的完整功能可能还没有实现，比如对等体之间的路由信息交换可能还存在问题。

解决方案
检查BIRD服务启动配置
查看BIRD服务的启动脚本或systemd单元文件（如果使用systemd管理服务）。在CentOS 7中，通常可以在/etc/systemd/system/或/usr/lib/systemd/system/目录下找到相关文件。确保BIRD服务的启动命令正确，并且依赖的文件和目录路径都正确配置。
例如，检查ExecStart命令行参数是否正确指向BIRD可执行文件和配置文件。可以尝试手动启动BIRD服务（systemctl start bird）并查看系统日志（journalctl -xe）来获取更详细的启动错误信息。

检查套接字文件权限和路径
对于“/var/run/calico/bird.ctl”或“/var/run/bird/bird.ctl”文件，确保Calico组件具有访问这些文件的权限。可以使用ls -l命令查看文件权限。如果权限不足，可以使用chmod命令修改权限。例如，如果文件属于root用户和root组，并且Calico组件运行在calico用户下，可以尝试chmod o+r /var/run/calico/bird.ctl（假设安全策略允许这样的权限修改）。
同时，检查Calico组件的配置文件中关于BIRD套接字文件路径的设置是否正确。可能在配置文件中有硬编码的路径，需要与实际的文件系统路径一致。

处理文件缺失问题
确定为什么“/var/run/bird/bird.ctl”文件在重启后会消失。这可能是由于文件系统挂载选项、临时文件清理机制或者BIRD服务自身的问题导致的。
一种可能的解决方法是在BIRD服务的启动脚本中添加创建该文件的逻辑。例如，在启动脚本中添加类似于touch /var/run/bird/bird.ctl的命令，并且设置正确的权限。另外，检查是否有其他服务在启动时清理了这个文件，可以通过查看/etc/rc.d/rc.local（如果有自定义脚本）或者其他开机启动脚本。

检查BGP对等体配置
尽管看到了端口179有连接，但还需要深入检查BGP对等体配置。在Calico中，确保每个节点的BGP对等体IP地址、AS（自治系统）号等配置正确。可以查看Calico的配置文件（custom - resources.yaml等）中的相关部分。
例如，检查节点之间的网络连接是否正常，是否存在防火墙规则阻止了BGP流量。可以使用ping、traceroute等工具检查节点之间的连通性，并且查看iptables -L（或firewalld相关命令）来检查是否有阻止BGP端口（179）的规则。

检查Calico版本与Kubernetes版本兼容性
虽然文档中提供了安装步骤，但Calico v3.28.2与Kubernetes v1.21.10可能存在一些未被发现的兼容性问题。可以查看Calico官方文档的兼容性矩阵，了解是否需要对Calico进行一些特定的配置调整或者升级/降级操作。
考虑升级Kubernetes或者尝试降低Calico的版本，看看是否能够解决问题。在升级或降级之前，一定要备份好现有的配置文件和数据。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

k8s删除deployment 报错 kubernetes
2023-04-19 16:52

回答 2 已采纳参考一下ChatGPT的建议和排查过程：确保您在正确的命名空间中删除deployment资源，您可以通过以下命令检查deployment所在的命名空间：kubectl get deployment
k8s最佳的网络方案是哪种？对网络损耗有多大？ kubernetes
2022-10-22 20:51

回答 1 已采纳最佳的意思其实是最适合的意思，各有优点，calico的扩展性比flannel要好，适用大型kubernetes集群（节点过百可视作大型），flannel适用敏捷型的kubernetes集群（节点小于1
从阿里云下载docker服务报错 centos 容器
2023-02-02 18:28

回答 2 已采纳错误消息“无法使用给定的 CA 证书对等证书进行身份验证”意味着客户端（在本例中为您的系统）不信任服务器提供的证书。如果服务器的证书已过期或证书链有问题，则可能会发生这种情况。要解决此问题，您可以尝
K8S部署二进制集群过程中calico一直报错，如何解决？？
2024-11-22 09:03

bug菌¹的博客 Calico 与 Kubernetes 配置不兼容。按照以上步骤排查和修复，可以解决大多数 Calico 的 BIRD 问题。希望如上措施及解决方案能够帮到有需要的你。PS：如若遇到采纳如下方案还是未解决的同学，希望不要抱怨&&急躁，...
如何合并相关数据 json
2019-03-13 21:01

回答 1 已采纳 If I understand properly what you want to do, here you have an unoptimized example, it's done with
K8S二进制部署详解，一文教会你部署高可用K8S集群
2024-02-07 10:34

景天科技苑的博客 二进制方式部署的k8s集群比较稳定。 二进制方式搭建：在官网下载相关组件的二进制包，如果手动安装，对kubernetes理解也会更全面。 Kubeadm和二进制都适合生产环境，在生产环境运行都很稳定，具体如何选择，可以...
二进制高可用k8s集群一键部署脚本
2022-04-02 17:34

"二进制高可用k8s集群一键部署脚本"是为简化k8s集群搭建过程而设计的工具，它基于阿良的二进制部署文档，旨在帮助开发者和学习者快速创建一个稳定的高可用k8s集群。首先，了解二进制部署意味着不依赖于预打包的...
二进制方式部署k8s集群相关配置文件及依赖包
2022-03-03 16:24

网络组件yaml文件：calico.yaml cfss生成证书安装包 etcd二次开发包：etcd-v3.4.9-linux-amd64.tar.gz k8s二进制安装包：kubernetes-server-v1.20.5-linux-amd64.tar.gz
k8s 二进制部署 .pdf
2021-12-08 10:28

在本文中，我们将深入探讨如何使用二进制方式部署高可用 Kubernetes (k8s) 集群。根据提供的信息，我们将在六台机器上进行部署：两台 Master 节点，两台 Node 节点，以及两台运行 Nginx 和 Keepalived 的服务器，...
【实战加详解】二进制部署k8s高可用集群教程系列十三 - 部署calico
2022-10-13 10:18

YangJianYong_Geek的博客实战加详解 - 完美解决二进制部署k8s高可用集群中ssl证书以及TLS Bootstrap机制的问题
k8s二进制文件以及docker二进制文件
2020-03-09 14:53

这里的CLUSTER_NAME 也是elasticsearch部署文件中设置的集群名称。 #安装 flannel 执行命令: cd /etc/ansible/roles/flannel 先修改kube-flannel.yml文件 --iface 对应的是本机的网卡名称 command: [ "/...
二进制文件部署k8s集群的资源和指南(v1.22)
2022-03-06 18:40

本文将详细介绍如何利用二进制文件部署k8s集群，特别是针对v1.22版本。在这个版本中，k8s引入了多项改进和新特性，以提升性能和稳定性。首先，我们来看二进制部署的优点。这种方法适用于那些希望自定义安装过程，...
K8S集群二进制部署（离线）
2024-01-24 09:22

各人有各人的隐晦与皎洁的博客 k8s-cluster-node2 192.168.99.130 4C8G CentOS7.9 Node节点网络规划网络名称网段备注 Node网络 192.168.99.0/24 服务器IP地址 Service网络 10.96.0.0/16 K8S集群中Service网段 Pod网络 10.244.0.0/16 K8S集群中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月7日

K8S部署二进制集群过程中calico一直报错

30条回答 默认 最新

问题事件

30条回答默认最新