数据全量和增量同步遇到的问题

最近在做数据同步优化，遇到一些问题。
之前的数据同步方案，是通过canal进行增量数据实时同步，DTLE进行全量跑批，保证数据的完整性，
但是目前这套方案不太支持分库分表(主要是canal)。
然后准备做优化，目前想在数据同步的时候进行业务处理，整成能够直接使用的业务数据，全量数据同步能够处理，
但是增量同步的时候，有些业务指标会用到目标库的数据
比如: 想计算一个人的学习总时长，全量同步可以直接把这个人的所有学习记录的时间进行sum累加，
但是增量的话，需要先读到源库的增量数据，然后累加到目标库上，这个就有点恶心了。
想问下，有什么好的方案吗，能够在数据同步的时候直接做成业务大宽表，支持增量和全量的。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-07-08 11:28
关注
引自免费微信小程序：皆我百晓生

你好，你提到的问题是在数据同步时如何处理增量和全量的数据同步问题，并且希望在同步时进行业务处理。这确实是一个比较复杂的问题，尤其是在涉及分库分表的情况下。下面是一些建议和可能的解决方案：

1. 增量与全量同步结合的策略

全量同步

对于全量同步，你已经有了处理的方式，即通过DTLE进行全量跑批，处理成业务数据。这种方式可以继续保持。

增量同步的优化

对于增量同步，你提到的业务指标计算问题，一种可能的解决方案是在同步的过程中进行中间状态的存储。也就是说，在增量数据同步到目标库之前，先将增量数据进行处理（例如累加学习时长），然后将处理结果暂存。待增量数据累积到一定程度或者定时触发的情况下，再将累积的结果合并到目标库中。

2. 使用支持增量与全量同步的工具

考虑使用其他支持增量和全量同步的工具或框架，这些工具可能提供了更高级的功能，例如直接支持分库分表的同步，或者在同步过程中进行业务逻辑的处理。这样可以在一定程度上简化你的工作。例如：Apache Kafka配合适当的consumer应用可以很好地处理增量和全量的数据同步问题。

3. 数据仓库/数据湖方案

考虑建立一个数据仓库或数据湖来存储和处理数据。在这种方案中，你可以将源数据同步到数据仓库中，并在数据仓库中进行增量和全量的数据处理。这样，无论增量还是全量数据，都可以按照业务需求进行处理，并且支持分库分表。数据仓库提供了丰富的数据处理和查询功能，可以很好地满足你的需求。

4. 使用存储过程或触发器处理业务逻辑

在目标数据库中创建存储过程或触发器，当增量数据同步过来时，自动触发存储过程或触发器执行相应的业务逻辑处理。这样可以在数据同步的过程中直接完成业务处理，无需额外的操作。

5. 设计考虑

在实施上述方案时，需要注意以下几点：

数据一致性：确保在同步过程中数据的完整性和一致性。
性能考虑：增量同步和全量同步的性能要求是不同的，需要根据你的业务需求进行性能优化。
错误处理：对于可能出现的错误和异常情况进行妥善处理。
监控与日志：建立有效的监控和日志系统，以便在出现问题时能够迅速定位和解决。

综上，具体选择哪种方案取决于你的具体需求、系统架构和数据特点。可能需要进行一系列的调研和实验来找到最适合你的解决方案。希望这些建议能够帮助你解决问题！
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于增量部署和全量部署. java
2021-02-20 09:34

回答 2 已采纳做一个工具，增量更新的时候记录上次更新时所用的代码svn版本，之后更新的时候对比跟最后一次版本的差异，拿出差异文件，然后上传编译热更，手动去一个个上传修改容易出错或者漏
大数据下的增量更新问题，局部更新而非全部更新大数据
2018-03-06 02:32

回答 5 已采纳 大数据里面一般都没有修改和删除这个动作，其实都是插入数据，我们可以设置一个版本号，插入实现修改：如前100w条数据有一条，我们假设是数据A，数据A的内容是（id=1，name=张三，v=1（版本1））
面试题目:ETL 什么时候用全量抽取，什么时候用增量抽取？ oracle sql
2021-05-27 09:43

回答 1 已采纳在根据用户需求选择需要抽取的字段之外，我们通常需要选择采用全量或者增量的方法进行数据抽取。全量抽取指的是从源系统中将表内数据不加行的筛选，全部抽取；增量抽取指的是只抽取前次抽取之后发生变化或者新增的数
ETL – 全量与增量
2021-01-20 13:12

而增量同步虽然能节省资源，但需要复杂的逻辑来确保数据的完整性和一致性。全量构建和增量构建在数据立方体（Cube）的更新上也有所不同。全量构建每次更新覆盖整个数据集，计算量大但查询效率高；增量构建仅更新指定...
FlinkCDC连mysql时无法获取增量数据 big data flink 大数据
2022-10-12 21:51

回答 1 已采纳解决了，没有开启checkpoint导致，加上下面代码即可env.enableCheckpointing(1000, CheckpointingMode.EXACTLY_ONCE);env.getCh
怎么使用kettle进行增量数据的抽取？
2018-11-26 05:31

回答 3 已采纳已经解决了，设置环境变量即可解决
数据结构C程序栈的问题 c++ c语言数据结构
2022-11-25 11:27

回答 2 已采纳修改如下，改动处见注释，供参考: #include <stdio.h> #include <stdlib.h> //#include <> //#include &
全量和增量同步合并问题
2023-08-03 11:24

Ricardo_N的博客每天新增、变更的增量数据多达几亿条，历史累计至今的全量数据则有几百亿条，面对如此庞大的数据量，如果每天从业务系统全量同步显然是不可能的可行的方式是同步当天的增量数据，并与数据仓库中的前一天全量数据...
关于每日定时增量抽取数据 java
2021-10-11 23:15

回答 2 已采纳用数据说话可能比较清晰。1.今天晚上，b系统当天的数据已经全部收集完毕，不会有新数据了。23：55分，a系统开始发送请求同步数据2.a系统自动发送请求，第一个请求的参数开始时间=2021-10-12
数据结构中的排序问题排序算法数据结构
2021-06-16 10:24

回答 1 已采纳排序前:[10,7,36,4,8,56,10,11,77,15] -------增量d=5------- 数组情况:[10,7,36,4,8,56,10,11,77,15] 未排序分组: 第0分组[
数据库中的增量数据如何保存到redis？ java mysql redis
2022-01-04 10:46

回答 3 已采纳 Redis 中每个 hash 可以存储 232 - 1 键值对（40多亿）。初始化：项目上线时全量用户ID按照想要的规则排好序查出，存入到Redis Hash Key为 CUURENT_USER的HA
ODPS 数据全量/增量同步方案
2022-02-28 22:43

梦幻通灵的博客从源数据库同步到ODPS平台，处理完成将结果同步到源数据库
关于增量模型和快速原型模型
2015-06-02 06:01

回答 5 已采纳增量模型融合了瀑布模型的基本成分（重复应用）和原型实现的迭代特征，该模型采用随着日程时间的进展而交错的线性序列，每一个线性序列产生软件的一个可发布的“增量”。当使用增量模型时，第1个增量往往是核心的产
【大数据精讲】全量同步与CDC增量同步方案对比
2024-01-23 19:21

话数Science的博客全量同步与CDC增量同步方案对比问题与挑战 FlinkCDC Flink CDC 是以 Debezium 作为底层采集工具。Debezium 支持全量同步，也支持增量同步，也支持全量 + 增量的同步，非常灵活，同时基于日志的 CDC 技术使得提供 ...
DM+大数据全量和增量同步解决方案，百万数据同步只需1秒
2021-12-18 19:19

deriva的博客背景公司项目的数据想同步到局域网做数据分析，加上部署了主从数据进行读写分离！之前公司的DBA部署了主从分离（发布...2.增量同步：只需要去同步那些改动过，需要跟新的数据。增量的基础是全量，首先需要将全量数.
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月8日

悬赏问题

¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价
¥15 在anaconda上pytorch和paddle paddle下载报错
¥25 自动填写QQ腾讯文档收集表

数据全量和增量同步遇到的问题

3条回答 默认 最新

1. 增量与全量同步结合的策略

全量同步

增量同步的优化

2. 使用支持增量与全量同步的工具

3. 数据仓库/数据湖方案

4. 使用存储过程或触发器处理业务逻辑

5. 设计考虑

问题事件

悬赏问题

3条回答默认最新