kettle循环实现对一张大表数据分多次小批量delete

需要对一张表做归档操作，归档过程：先将源表数据插入归档表，然后再delete源表数据。
因为如果归档100万条数据，一次性delete 100万的话，可能会锁表，并且delete这么大的数据量，也会很慢。于是，我想分小批量归档，比如每次归档1000条，执行完本批次归档后，再计算表中记录条数是否大于0，如果大于0的话，继续下一个批次归档，所以，用一个循环实现，总任务如下图：

问题：执行了几十次个批次之后，报错：内存溢出，看了一下CPU和内存都暴涨，kettle进程占了很大。有什么好方法可以实现上面需求？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

26条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-05 15:47
关注
获得0.30元问题酬金
引自免费微信小程序：皆我百晓生

要解决这个问题，我们可以采取一种更有效的方法来处理大数据的删除操作。Kettle本身提供了批处理的功能，但是当数据量特别大时，可能仍然会遇到性能瓶颈。这里推荐使用SQL的分区删除策略以及Kettle的流式转换（Stream Lookup）来优化这个流程。这样可以避免一次性加载大量数据到内存，从而减少内存消耗。

首先，你需要在源表上创建分区。例如，如果你的表有一个日期字段，你可以基于这个日期字段进行分区。这将有助于数据库管理系统更有效地处理大规模的数据操作。

创建分区表:
假设你的源表名为source_table，并且有一个名为date_field的日期字段。
在MySQL中，创建分区表的命令可能是这样的：

CREATE TABLE source_table ( -- 列定义... ) PARTITION BY RANGE (year(date_field)) ( PARTITION p0 VALUES LESS THAN (2023), PARTITION p1 VALUES LESS THAN (2024) -- 添加更多分区，根据需要... );

优化删除操作:

使用Kettle的Table Input步骤读取源表的ID或其他唯一标识符，而不是所有数据。
创建一个Stream Lookup步骤，连接到归档表，查询已归档的ID。
使用Filter Rows步骤过滤掉已经归档的ID。
最后，使用Table Output步骤将剩余未归档的ID写入一个新的临时表，如temp_to_delete。

分区删除:

使用Table Input从temp_to_delete表读取ID。
创建一个JavaScript步骤，在此步骤中编写一个脚本来动态构建分区范围内的删除语句。例如，如果当前处理的是2023年的数据，那么删除语句应该是针对p0分区的。
使用Execute SQL Script步骤执行这些删除语句。

以下是大致的Kettle作业设计：

Start --> | Table Input (源表 ID) | | Stream Lookup (归档表) | | Filter Rows (排除已归档) | | Table Output (temp_to_delete) | | V +-----------------------+ | JavaScript | +-------------------+ | | | Execute SQL Script| | 动态构建删除语句... | | 分区删除操作 | +-----------------------+ +-------------------+ | V End

注意，JavaScript步骤中的代码取决于你使用的数据库类型，但基本思路是类似的。这是一个示例（使用JDBC）：

var connection = Spoon.createJobEntryCopy("jobentry_jdbc_connection", jobMeta).getDatabaseMeta().getConnection(); var dbType = connection.getDatabaseInterface().getName(); var sqlDelete = ""; var ids = new Array(); // 读取temp_to_delete表中的ID var rows = Spoon rajobInputTableInput; while (rows != null && rows.size() > 0) { var row = rows.get(0); ids.push(row.getString(1)); // 假设ID在第一列 rows = spoon.nextRowSet(rows); } ids.forEach(function(id) { sqlDelete += "DELETE FROM source_table WHERE id = " + id + ";"; }); if (dbType == "mysql") { sqlDelete = "ALTER TABLE source_table AUTO_INCREMENT = 1; " + sqlDelete; } else if (dbType == "postgresql") { // PostgreSQL不支持自动重置序列，因此需要单独处理 // 这里省略PostgreSQL的具体代码，因为处理方式依赖于你的具体数据库结构 } spoon.logBasic(sqlDelete); try { var statement = connection.createStatement(); statement.execute(sqlDelete); } catch (e) { spoon.logError(e.getMessage()); }

确保在作业完成后清理临时表temp_to_delete。

通过这种方式，每次只处理一小部分数据，减少了内存占用，同时利用了数据库分区的优势，提高了删除效率。这种方法应该能显著降低内存消耗和提高整体性能。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

kettle从一张表抽取数据分别插入到多张表中
2018-06-20 07:47

回答 5 已采纳写java代码吧，选择java代码选项，做分表插入操作 1.直接用java代码处理 2.使用sql语句的视图做处理
使用Kettle 工具将oracle中的表同步到mysql中如何实现？ mysql oracle
2018-01-25 09:39

回答 4 已采纳问题很明显啊，table'mysql.demo'doesn't exist ;demo这个表在mysql不存在啊，新建一个就可以了
kettle向数据库表中插入数据抛出异常数据问题 etl java 数据库
2022-02-21 14:51

回答 1 已采纳记录数量批处理的原理是使用了insert后面多个values的语句，实际是一条SQL提交，so 一个values出错所有都会回滚
kettle分批处理大表数据_内表数据量过大时，拆分内表，分批次处理。
2020-12-21 12:10

weixin_39835321的博客 TYPE INLT_RANGE.*policy has been been released but doesn't have POL/PAC IF LT_CAS_YE_RE IS NOT INITIAL.SORT LT_CAS_YE_RE BYBUSOBJ_ID.DELETE ADJACENT DUPLICATES FROMLT_CAS_YE_RE COMPARING BUSOBJ_ID....
两个相同结构的表怎么用kettle合并数据 etl 数据库
2023-01-05 10:17

回答 1 已采纳使用Kettle进行表合并需要使用到"合并记录"步骤。首先，你需要将两个表作为数据源连接到Kettle中。然后，拖拽一个"合并记录"步骤到流程设计器中。将两个表作为输入连接到"合并记录"步骤。接下
sqoop和kettle可以实现oracle到kafka嘛 hbase sqoop 大数据
2022-08-08 17:40

回答 1 已采纳都可以抽Oracle写Kafka重点是你要怎么做数据抽取，增量变更捕获或者就是全量抽
kettle想实现同时将csv和excel导入同一个表（有大问题实现不出来）求脱离苦海 etl
2022-03-29 15:09

回答 1 已采纳自己找到问题了，过滤记录中那个条件判断，你字段是什么类型你后面判断参数的类型也得一样。我这里就是date类型后面写了string类型的参数，换成>=一个时间就行了
大数据技术之 Kettle（PDI）
2023-12-17 22:50

hmb↑的博客 Extract-Transform-Load（ETL）是一种常见的数据集成过程，用于从一个或多个数据源中提取数据，对数据进行转换和清洗，然后加载到目标数据存储中。ETL 过程通常包括以下三个步骤：提取（Extract）：从一个或多个数据...
KETTLE表连接后无数据或NULL etl sql
2021-08-16 10:06

回答 1 已采纳没事了。。。表没有相同关键词匹配连接不了
kettle如何将多行数据合并为一列?
2018-11-03 09:16

回答 2 已采纳虽然知道已经是很久之前的问题了，但是还是忍不住来回答一下 kettle有专门的节点处理这种情况叫Row denormaliser
kettle没有表输入表输出控件怎么办 etl mysql 大数据
2022-08-11 14:36

回答 2 已采纳目测你这个新建的是“任务”，所以没有，新建一个“转换”再看看。转换和任务的图标是不一样的：
一篇搞定，Kettle详细教程
2023-09-21 11:54

大数据东哥(Aidon)的博客本文主要以Kettle概述、Kettle开发环境部署、mac m1 kettle安装、linux kettle安装、kettle集群安装部署、kettle输入、kettle输出、kettle转换、kettle批量加载、kettle流程、kettle脚本、kettle的Java代码案例、...
kettle中有源表和目标表，两个表的表输入的查询中的表名是一个变量，如何让源表中的数据更新到目标表中？
2018-11-13 12:48

回答 2 已采纳像Kattle这种用可视化的方式来进行配置以达到数据处理的目的，基本上是需要有明确的字段列表的，而你想要做的是一个相对通用的过程，现有的控件基本上是无法达到要求的你的第三种思路用java代码来
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客 2.15.13 数仓中使用的哪种文件存储格式 2.15.14 数仓当中数据多久删除一次 2.15.15 Mysql业务库中某张表发生变化，数仓中表需要做什么改变 2.15.16 50多张表关联，如何进行性能调优 2.15.17 拉链表的退链如何实现 ...
Kettle 全量抽取数据
2018-12-10 21:44

aganliang的博客本例子，来源表是一个oracle视图，目的表是一个oracle表，采用“表输入—表输出”进行ETL。 1.在Spoon中，打开核心对象——表输入数据库连接中选择 DB连接中的视图，SQL语句是相关的视图，需要哪些字段、过滤...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月5日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

kettle循环实现对一张大表数据分多次小批量delete

26条回答 默认 最新

问题事件

悬赏问题

26条回答默认最新