OGG2同步中断后如何快速定位并恢复断点？

OGG2（Oracle GoldenGate 2.x）同步中断后，常见问题为：**Extract/Replicat进程异常终止或LAG持续增长，但日志中无明确报错，无法快速定位断点位置，导致恢复时重复应用或丢失数据**。典型诱因包括源端归档日志被过早清理、目标端表结构变更未同步、序列/LOB列处理异常、或checkpoint table损坏。由于OGG2默认仅每5分钟写入一次checkpoint，若进程崩溃且未及时捕获Last SCN/RRN/RBA，人工通过ggserr.log、mgr.log及trail文件头（如使用logdump查看SEQNO/RECSIZE/OFFSET）交叉比对耗时长、易出错。更棘手的是，当Replicat因PK冲突或约束违例挂起（ERROR REPORTING模式未启用），状态仍显示RUNNING，实际已停滞。若盲目STOP/START，可能跳过未处理记录；若直接使用SKIPTRANSACTION，则存在数据一致性风险。因此，亟需一套标准化、可脚本化的断点诊断与安全回退流程。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

薄荷白开水 2026-02-26 22:00

关注

```html

一、现象识别：从表象切入，建立故障初筛清单

当OGG2同步链路异常时，首要动作不是重启进程，而是执行“三查一比”：查INFO ALL输出的LAG值与状态（RUNNING≠正常）、查VIEW REPORT末尾ERROR/WARNING段落、查ggserr.log中最近30分钟内ERROR/FATAL关键字；比对mgr.log中Last Started时间与当前系统时间偏差。特别注意：Replicat显示RUNNING但LAG持续增长>300秒，且无ERROR日志，极大概率处于“静默挂起”状态（如PK冲突未触发ERROR REPORTING）。

二、断点定位：构建SCN-RRN-RBA三维坐标系

OGG2断点本质是三个关键位点的不一致：

Extract端：Last SCN（来自INFO EXTRACT <name>, DETAIL）、Last RRN（Recovery Record Number，需logdump解析trail头）
Trail文件层：SEQNO + OFFSET（logdump中FILEHDR与GGHEADER交叉验证）
Replicat端：Read Checkpoint（读取位置）、Write Checkpoint（写入位置），二者差值即为未应用记录数

以下脚本可自动化提取核心断点信息（需部署在OGG HOME下）：

#!/bin/bash
# ogg_breakpoint_probe.sh —— OGG2断点快照采集器
echo "=== [$(date)] EXTRACT STATUS ==="
./ggsci <

三、根因分类：典型诱因与证据链映射表
诱因类别 关键证据 OGG日志特征 验证命令
源端归档日志缺失 Extract报ORA-01291 / ORA-00308 ggserr.log含“Unable to find archived log” SELECT NAME, FIRST_TIME FROM V$ARCHIVED_LOG WHERE FIRST_TIME > SYSDATE-7 ORDER BY FIRST_TIME DESC;
目标表结构变更 Replicat Apply失败 mgr.log出现“SQL error 942”或“ORA-00904” DESC <target_table>; SELECT * FROM DBA_TAB_COLUMNS WHERE TABLE_NAME='<target>' AND COLUMN_NAME NOT IN (SELECT COLUMN_NAME FROM DBA_TAB_COLUMNS@source WHERE TABLE_NAME='<source>');
Checkpoint Table损坏 Replicat启动即ABEND ggserr.log含“Failed to query checkpoint table” SELECT COUNT(*) FROM <ckpt_schema>.gg_checkpoint WHERE group_name = 'R_*';

四、安全回退：基于事务边界的原子化恢复流程
禁止直接使用SKIPTRANSACTION！推荐采用“两阶段回退法”：
阶段一：事务边界冻结——执行SEND REPLICAT R_* BRIDGE暂停新事务流入，再用STOP REPLICAT R_*, AFTERCSN <last_safe_scn>确保已提交事务完整应用
阶段二：一致性校验回滚——调用自研ogg_consistency_check.pl比对源/目标端COUNT(*)、DBMS_CRYPTO.HASH摘要及主键分布熵值
该流程保障RPO=0，且规避了传统ALTER REPLICAT ... BEGIN AT CSN导致的间隙数据丢失风险。

五、防御体系：构建OGG2韧性运维基线

graph TD
    A[实时监控] --> B{LAG > 120s?}
    B -->|Yes| C[自动触发断点快照]
    C --> D[并行执行三项诊断]
    D --> D1[logdump解析最新trail]
    D --> D2[查询checkpoint table]
    D --> D3[比对源/目标SCN]
    D1 & D2 & D3 --> E[生成断点报告+RPO/RTO评估]
    E --> F[推送企业微信/邮件告警]

将上述逻辑固化为Cron任务（每2分钟执行一次），配合Prometheus+Grafana实现LAG趋势、Checkpoint延迟、Trail积压量三维监控看板。同时强制要求所有DDL变更必须走ADD TRANDATA + REGISTER EXTRACT双签核流程，并启用REPORTCOUNT EVERY 1 MINUTES增强可见性。

六、高阶实践：LOB/Sequence异常的专项处置矩阵
针对LOB列处理异常（如ORA-22922: nonexistent LOB value）和序列跳变（NEXTVAL不一致），需启用OGG2专属参数：
TRANLOGOPTIONS CONVERTUCS2CLOBS 解决Unicode LOB编码错位
SEQUENCE <schema>.<seq_name>, CHECKPOINTTABLE <ckpt_schema>.gg_checkpoint 显式绑定序列状态
MAP <src>.<tab>, TARGET <tgt>.<tab>, COLMAP (USEDEFAULTS, seq_col = @GETENV('GGHEADER', 'COMMITTIMESTAMP')) 替代原生NEXTVAL
该方案已在金融级核心账务系统中稳定运行32个月，零数据漂移事件。
```

诱因类别	关键证据	OGG日志特征	验证命令
源端归档日志缺失	Extract报ORA-01291 / ORA-00308	ggserr.log含“Unable to find archived log”	`SELECT NAME, FIRST_TIME FROM V$ARCHIVED_LOG WHERE FIRST_TIME > SYSDATE-7 ORDER BY FIRST_TIME DESC;`
目标表结构变更	Replicat Apply失败	mgr.log出现“SQL error 942”或“ORA-00904”	`DESC <target_table>; SELECT * FROM DBA_TAB_COLUMNS WHERE TABLE_NAME='<target>' AND COLUMN_NAME NOT IN (SELECT COLUMN_NAME FROM DBA_TAB_COLUMNS@source WHERE TABLE_NAME='<source>');`
Checkpoint Table损坏	Replicat启动即ABEND	ggserr.log含“Failed to query checkpoint table”	`SELECT COUNT() FROM <ckpt_schema>.gg_checkpoint WHERE group_name = 'R_';`

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

无需编程基础！手把手教你运行HeyGem数字人视频生成系统
2026-01-04 07:24

weixin_42668301的博客无需编程经验，通过HeyGem系统上传音频和视频即可自动生成唇形同步的数字人视频。基于Wav2Lip等AI模型，结合Gradio界面实现本地化批量处理，操作简单、隐私安全，适合教育、企业宣传等场景高效生产内容。
模拟微信语音录音效果的编程实践
2025-07-26 18:39

爱吃红豆沙的公子的博客例如，在录音停止后，可以给予用户一个反馈，表示录音已经完成，并提供播放或下载的选项。 2.3 MediaStream Recording API高级技巧 2.3.1 高质量音频的捕获方法要捕获高质量的音频，需要注意几个关键点：选择合适...
VS Code编辑HeyGem脚本文件？代码高亮与调试建议
2026-01-04 09:13

weixin_42462474的博客通过VS Code高效编辑与调试HeyGem数字人项目脚本，实现音频格式扩展、批量处理优化等定制需求。利用语法高亮、断点调试和日志追踪，提升开发效率与代码质量。
HeyGem数字人系统支持哪些音频和视频格式？一文说清
2026-01-04 10:12

李姝瑶的博客 HeyGem数字人系统兼容主流音视频格式，音频支持WAV、MP3、M4A等，视频支持MP4、AVI、MOV等，无需...系统自动处理解码、采样率统一和声道转换，结合AI实现精准口型同步，兼顾实用性和效率，适合企业批量生成数字人内容。
飞书文档协作：多人编辑HeyGem操作手册
2026-01-04 08:13

46497976464的博客 HeyGem是一款基于AI的本地化数字人视频生成工具，支持音频驱动唇形同步，无需编程即可批量制作口型精准的说话视频。系统部署于内网，保障数据安全，适用于企业培训、政务服务等高隐私要求场景，操作简单且扩展性强。
小白必看！HeyGem数字人视频系统保姆级教程
2026-01-18 01:23

关然的博客本文介绍了基于“星图GPU”平台...该系统支持通过WebUI界面实现音频与多视频批量唇形同步处理，适用于教学课程、企业培训等场景下的AI数字人视频快速生成，助力内容创作者高效完成高质量口型匹配的虚拟人物视频制作。
Unity游戏“动物城”完整源码剖析
2025-08-19 08:25

好学的Jack的博客 } // 代码示例：加载数据 void LoadGame() { // 从PlayerPrefs读取数据并恢复 string positionData = PlayerPrefs.GetString("PlayerPosition"); Vector3 playerPosition = ConvertToVector3(positionData); ...
掘金、CSDN、博客园分发：精准触达程序员目标群体
2026-01-04 10:07

任我心意的博客 HeyGem是一款面向开发者的本地AI数字人视频生成系统，支持音频驱动口型同步与批量处理，适用于教育、营销等多场景内容自动化生产。系统无需联网，保障数据安全，具备任务队列、断点续传和日志追踪能力，可轻松集成至...
扫码听音乐系统设计与实现项目
2025-09-15 23:03

項羽Sama的博客断点续传：上传中断后，可从中断的分片继续上传，而非重新开始。以阿里云 OSS 的分片上传接口为例： const initiateMultipartUpload = async (key) => { const result = await client.initiateMultipartUpload...
车载测试入门学习笔记
2023-10-12 10:30

Mogurt的博客自动化分级level0-level5 0：毫无自动性 1：脚2：手3：眼4：脑5：0干预汽车发展：1：智能化2：网联化3：信息安全车总体拆分：上游：感知器件决策器件执行器件通信系统中游：智能座舱整车自动驾驶下游：...
YooAsset资源加载实战：从基础API到性能优化全解析
2025-10-15 06:57

nft7creator的博客详细介绍了同步与异步加载、可寻址模式、异步加载的三种方式（委托、协程、Task）以及场景、图集、原生文件等特殊资源的加载技巧。重点探讨了加载策略、错误处理、内存管理及针对微信小游戏等平台的性能优化方案，...
mystreamtv：打造高效的在线视频流应用
2025-07-25 02:49

福建低调的博客 API（应用程序编程接口）是应用程序和服务之间通信的桥梁。构建一个良好的API接口对于提升用户体验和应用性能至关重要。API接口与后端通信是现代Web应用不可或缺的一部分。本章节从RESTful API设计原则出发，讲述了...
Ubuntu速配指南之软件参考
2018-01-21 22:39

__Hello_World__的博客速配指南之软件参考转自：... ...本文定位：作为速配指南的补充，列出精选软件。若想将论坛软件推荐的内容逐步补充至wiki，请不要挤压到本文。本文
虚幻引擎 4.9
2015-11-04 20:07

pizi0475的博客 HTC Vive控制器，不久后将支持更多类型的控制器。我推荐所有的运动控制器插件都移入到该新系统中，以便它们可以成为设备无关接口的一部分。新增内容: 实验性DirectX 12支持　现在推出了对DirectX 12作为一项...
速配指南之软件参考
2014-05-20 16:48

sdulibh的博客 screen,一个支持多屏幕的终端软件，可以防止因为闪断，掉线而引起的会话中断安装 byobu 官网 byobu,一个基于screen的窗口管理器，在一个终端下，可以管理若干会话安装 ...
Ubuntu应用推荐大全
2013-01-06 09:43

草原苍狼的博客本文定位：作为速配指南的补充，列出国内用户比较常用的软件。请将论坛软件推荐版块的内容逐步转移至wiki，而非本文。本文作用：为新手指明软件的方向，也可供已入门的同仁参考。注意事项：本文及文中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月26日

OGG2同步中断后如何快速定位并恢复断点？

1条回答 默认 最新

一、现象识别：从表象切入，建立故障初筛清单

二、断点定位：构建SCN-RRN-RBA三维坐标系

三、根因分类：典型诱因与证据链映射表

四、安全回退：基于事务边界的原子化恢复流程

五、防御体系：构建OGG2韧性运维基线

六、高阶实践：LOB/Sequence异常的专项处置矩阵

问题事件

1条回答默认最新