姚令武 2026-05-16 22:05 采纳率: 98.6%

已采纳

Oracle RAC中节点间心跳超时常见原因有哪些？

在Oracle RAC环境中，节点间心跳超时（如CSS misscount触发驱逐）是导致节点重启的常见故障。常见原因包括：1）私网（Private Interconnect）配置不当——如未禁用私网网卡的TCP/IP协议栈、未关闭防火墙或SELinux、MTU不一致；2）网络设备问题——交换机端口拥塞、STP阻塞、双工/速率不匹配、网线老化或光纤衰减；3）系统资源争用——高CPU负载、内存压力或I/O瓶颈导致CSSD进程调度延迟；4）时间不同步（NTP未启用或漂移过大），影响集群时间一致性；5）OCR/Voting Disk访问异常（如ASM磁盘组IO延迟过高）间接拖慢CSS心跳响应。需通过`oifcfg getif`、`cvssadmdump`、`ping -s `及`/var/log/messages`综合排查。预防关键在于私网专用、全链路冗余、严格时钟同步与定期健康检查。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

舜祎魂 2026-05-16 22:05

关注

```html

一、现象识别：从节点重启日志初判CSS心跳异常

当RAC节点意外重启，首要检查/var/log/messages中含cssd、misscount、eviction或rebooting node的关键字。典型日志片段：

Oct 12 03:45:22 node1 cssd[12345]: WARNING: Missing heartbeat from node node2 for 60 seconds

CSS（Cluster Synchronization Services）依赖私网持续发送/接收心跳包，超时达misscount × disktimeout（默认misscount=60s）即触发驱逐。此阶段不涉及业务SQL，但已暴露底层协同机制断裂。

二、配置核查：私网协议栈与系统策略合规性验证

执行以下命令确认私网配置基线：

oifcfg getif —— 验证私网接口是否被正确标记为cluster_interconnect，且未混用公网IP
ethtool eth1 —— 检查双工模式（Duplex: Full）、速率（统一为10G/25G）、自动协商（Auto-negotiation: off推荐）
sysctl net.ipv4.conf.eth1.arp_ignore —— 私网网卡必须禁用ARP响应（值应为1）
systemctl is-active firewalld && sestatus —— 防火墙与SELinux必须disabled

MTU一致性需全链路验证（主机→交换机→对端主机），建议统一设为9000（Jumbo Frame），避免分片丢包。

三、网络层诊断：交换机与物理链路深度检测

构建如下诊断矩阵：

检测项	命令/工具	合格阈值
端到端延迟抖动	`ping -s 8972 -c 100 node2-priv`	平均延迟<1ms，抖动<0.3ms
STP状态	`show spanning-tree interface port-channel1`（交换机CLI）	应为`forwarding`，非`blocking`或`learning`
光模块衰减	`ethtool -m eth1`（支持SFP+的网卡）	TX/RX功率在厂商标称范围内（如-8.2dBm ±3dB）

四、系统资源与时间同步联合分析

CSSD是实时优先级进程（chrt -r 99），其调度延迟直接受系统负载影响。需交叉验证：

vmstat 1 10：观察r（运行队列）是否持续>CPU核数×2，wa是否>20%（I/O阻塞）
ntpq -p && chronyc tracking：NTP偏移量必须<50ms，最大偏差<100ms；建议使用chrony替代ntpd以适应虚拟化环境
cvssadmdump -g：提取CSSD内部计时器快照，重点关注last_heartbeat_time与current_time差值

五、存储路径穿透：OCR/Voting Disk IO对CSS的隐式影响

虽CSS心跳不直接读写OCR，但CSSD启动时需校验Voting Disk健康度，且定期刷新disk heartbeat。当ASM磁盘组IO延迟升高：

# 检测ASM IO延迟（单位：ms）
$ asmcmd afd_lsdsk -v | grep -i "io_time\|latency"
# 查看CSSD trace中的IO等待
$ cd $ORACLE_HOME/log/<node>/cssd/ && grep -i "io_wait\|timeout" alert*.log

若asm_iostat显示平均IO等待>20ms，或crsctl stat res -t中ora.asm状态频繁flapping，则需排查存储子系统（HBA队列深度、多路径策略、存储阵列缓存命中率）。

六、根因定位流程图（Mermaid）

graph TD A[节点重启] --> B{/var/log/messages含CSS misscount?} B -->|Yes| C[oifcfg getif确认私网绑定] B -->|No| D[检查CRSD/OHASD日志] C --> E[ping -s 8972测试私网MTU连通性] E --> F{丢包率>0.1%或抖动>0.5ms?} F -->|Yes| G[检查交换机端口统计/光衰] F -->|No| H[chronyc tracking验证NTP漂移] H --> I{偏移>100ms?} I -->|Yes| J[启用chrony并配置burst] I -->|No| K[cvssadmdump -g分析CSSD内部时钟]

七、预防性加固清单

私网物理隔离：专用交换机+VLAN，禁止与管理网/业务网共用PHY
全链路冗余：双私网接口绑定（bond mode=active-backup）+ 双交换机堆叠
自动化巡检：每日执行crsctl check cluster -all && ocrcheck && asmcmd lsdg并邮件告警
内核参数固化：net.core.rmem_max=26214400, vm.swappiness=1, kernel.sched_migration_cost_ns=5000000
建立CSSD性能基线：采集正常时段cvssadmdump -g输出，对比异常时偏差

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Oracle应急处理：Oracle RAC 集群节点进程通信出现报错
2025-06-30 17:17

小亦智能运维的博客 Oracle RAC集群出现IPCSENDTimeout错误，排查因节点间IPC通信故障。通过检查资源状态、重启节点服务及收集诊断信息后问题解决。
oracle rac io延迟时间,[RAC性能调优] 关于RAC集群心跳超时驱逐节点与异步IO的疑问...
2021-05-07 11:29

舜祎魂的博客关于RAC集群心跳超时驱逐节点与异步IO的疑问有种说法是说RAC集群出现心跳超时之后,会固定重启2节点,不知这个官方文档有没有具体说明,RAC节点是否有主节点与从节点的分别,另外关于使用异步IO在哪些场景适用,有没有...
oracle rac io瓶颈,关于RAC集群心跳超时驱逐节点与异步IO的疑问
2021-04-30 08:30

veritascxy的博客关于RAC集群心跳超时驱逐节点与异步IO的疑问有种说法是说RAC集群出现心跳超时之后,会固定重启2节点,不知这个官方文档有没有具体说明,RAC节点是否有主节点与从节点的分别,另外关于使用异步IO在哪些场景适用,有没有...
oracle rac对心跳要求_Oracle-RAC集群心跳
2020-12-28 19:32

weixin_39710249的博客建议采用交换机连接方式心跳线与业务网络分开单独接线若公用一个交换机时，使用VLAN隔离Oracle不支持使用交叉线(cross-cabling)作为Clusterware的内部连接导致集群不稳定限制了两个节点RAC扩展建议心跳交换机使用两...
Oracle RAC集群三种心跳机制
2022-03-27 21:26

jnrjian的博客 Oracle集群如何维护集群的一致性，所谓的集群一致性就是指集群中每个成员能够了解其他成员的状态，而且每个成员获得的集群中其他节点的状态和集群中节点成员列表信息是一致的，这也是集群最基本的要求。 Oracle...
oracle rac io延时,RAC集群心跳超时驱逐节点与异步IO的疑问
2021-05-07 06:44

二院大蛙的博客 11.2的online doc上是这么描述AIO的:http://docs.oracle.com/cd/E11882_01/server.112/e16638/os.htm#sthref583“With synchronous I/O, when an I/O request is submitted to the operating system, the writing ...
05 手把手部署Oracle 19c RAC——2节点实例安装全流程（图形化+静默）
2026-02-15 09:56

superman超哥的博客本文详细介绍了Oracle 19c RAC双节点部署的全流程，重点包括： RAC核心基础配置：共享存储与ASM磁盘组规划、三网分离网络架构、节点互信设置；图形化安装步骤：通过VNC连接进行Grid Infrastructure和数据库软件安装...
Oracle RAC/Clusterware 多种心跳heartbeat机制介绍 RAC超时机制分析
2018-03-23 09:30

逝鸿的博客转自https://blog.csdn.net/cscscscsc/article/details/55853121ORACLE RAC中最主要存在2种clusterware集群件心跳 & RAC超时机制分析：1、Network Heartbeat 网络心跳每秒发生一次； 10.2.0.4以后网络心跳...
oracle rac io瓶颈,[RAC性能调优] 关于RAC集群心跳超时驱逐节点与异步IO的疑问
2021-04-30 08:31

weixin_39932947的博客关于RAC集群心跳超时驱逐节点与异步IO的疑问有种说法是说RAC集群出现心跳超时之后,会固定重启2节点,不知这个官方文档有没有具体说明,RAC节点是否有主节点与从节点的分别,另外关于使用异步IO在哪些场景适用,有没有...
记一次oracle rac 一个节点load averge高导致的问题
2025-04-03 14:53

施嘉伟的博客由于cpu队列堆积，节点一一直卡死，无法执行正常命令，不再记录0:38之后的日志，直至1点40多客户手动重启节点一，重启完服务恢复正常。01:59开始排查。1）高系统负载：当系统负载过高时，CPU可能会无法及时完成任务...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答今天
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月16日