如何处理JDBC批量插入sql不支持多表的情况下的入库速率不稳定的问题？

是这样的，现在我要从来自Kafka的20多个topic中消费出数据，每个topic对应Clickhouse里面的一个表。

但是Clickhouse的JDBC批量插入只支持预编译SQL，即每个 PrepareStatement对象只能批量插入一个表的数据。如下：

Connection connection = getConnection();
PrepareStatement ps = connection.prepareStatement("insert into xxx values (?, ?, ?, ?)");
ps.setObject(1, xxx);
ps.setObject(2, xxx);
ps.setObject(3, xxx);
ps.addBatch();
ps.executeBatch();
ps.clearBatch();
// ......

所以，我在入库程序把每个表的入库分为不同的线程，分别维护不同的PrepareStatement对象，
入库不同的表。比如现在有20个表，我设定每个表3个线程，那么总共就有60个入库线程。

但是这样子做的话，我无法保证入库的速率稳定，因为有的表数据量大，有的因为业务开启有时较大，而分配的入库线程是固定的。各位盆友有什么解决办法吗？

ps：入库程序用的flume，用的官方的KafkaSource，然后写了一个Clickhouse的Sink，每个sink就是对应一个入库clickhouse的线程。Channel用的文件内存通道。当Kafka数据量大时，入库速率远远小于消费速率，可能导致Channel通道满，堆积大量磁盘文件，读写磁盘操作又进一步影响sink取数据，然后越来越慢。。最后Kafka都报一堆问题。

再ps：Clickhouse是6个节点的集群，三个分片，一个副本的配置。我批量插入设置150000条一次批量插入。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-10-06 15:46
关注
说实话，你多线程除了让程序更慢，一点意义都没有，因为性能瓶颈在磁盘IO而不是CPU或者延迟上，如果你要优化插入的性能，少使用触发器、各种约束，关联等，这些都是开销。
建议你可以考虑分库分表了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

sharding-jdbc是否不支持mysql批量更新？ hibernate mysql spring struts tomcat
2021-01-07 14:20

回答 1 已采纳看了github上的issue 5.0以前的版本确实不支持不想升版本只有重写sql
jdbc关于#sql#的问题，如何解决？ java sql
2023-04-23 09:44

回答 5 已采纳你的sql是怎么写的呢，确认你的resultSet返回的结果是按照你的列表一样的数据么
利用jdbc连接数据库access后，编写sql语句运行，为啥access表里不更新啊？ java 数据库
2022-11-19 14:24

回答 1 已采纳你可以参考下这篇文章：[新人向]Access的安装以及关于JDBC-ODBC桥连接Access数据库的方法、问题和解决
MySql 如何急速插入百万数据 批量插入 Statement PreparedStatement
2019-09-09 15:04

龙腾的专栏的博客 import java.sql.*; public class InsertMoreStatement { // MySQL 8.0 以上版本 - JDBC 驱动名及数据库 URL static final String JDBC_DRIVER = "com.mysql.cj.jdbc.Driver"; static final ...
为什么JDBC批量处理无效呀 java
2022-03-11 09:29

回答 2 已采纳
JDBC中错误的SQL语句不抛异常，导致事务提交 java sql 数据库有问必答
2022-03-12 21:15

回答 1 已采纳你这sql执行成功了，只是没有找到m，所以更新返回结果为0，肯定不会抛异常啊。你这是逻辑问题，不是sql问题。
控制台打印sql没问题就是添加不到表里，把控制台sql复制到mysql中运行就可已添加 sql
2016-12-09 01:48

回答 3 已采纳看你的log好像适合数据库连上的看下你是否配置了事务或者说事务没有提交呢
数据中台建设方案-基于大数据平台
2023-03-14 16:45

FRDATA1550333的博客通过对客户大数据应用平台服务需求的理解，根据建设目标、设计原则的多方面考虑，建议采用星环科技Transwarp Data Hub（TDH）大数据基础平台的架构方案，基于Transwarp Operating System（简称TOS）云平台方式部署...
关于JDBC 使用 PreparedStatement。用“？占位符出现的sql语法报错的问题，如何解决？ java sql 数据库
2022-08-10 17:21

回答 1 已采纳所以说，你的报错是啥？
jdbc插入不了数据 eclipse java
2021-06-09 23:08

回答 3 已采纳 checkErrorPacke:你的register（。。。）参数不对应，调用传入的参数和实现设置的参数名位置错了
jdbc执行sql 不支持“variant”数据类型。 java sql
2015-06-05 08:45

回答 3 已采纳 ``` 改成下面试试 select top 100 cast([value] as varchar(500)) [value] from sys.extended_properties
mysql入库速度最大多少_mysql千万级数据入库，提升插入速度
2021-02-02 05:09

weixin_39945810的博客需求：将文本文件中包含的一千万int型id数据插入mysql中，并求得出现频率最高的前10条。文本文件：http://pan.baidu.com/s/1gd08g3D。内容是一行一个int型id。本文只探讨mysql插入速度。‍‍分别从‍‍数据库‍‍和...
求助大神 JDBC数据插入不进数据库数据库
2017-05-27 08:57

回答 11 已采纳 st.executeUpdate(sql);和st1.executeUpdate(sql1); 有问题，不能传入sql中，调用executeUpdate(),空参的就可以了。
2021年大数据面试宝典完整版（含答案解析）
2021-06-09 02:05

行走的数据智能的博客朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动，spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的...
大数据开发面试题总结-超详细
2019-11-18 16:51

_JohnnyChu的博客任务，所以对整个文件处理时会有很多 map 任务进行并行计算 2 、每个 map 任务处理完输入的 split 后会把结果写入到内存的一个环形缓冲区，它的默认大小为 100M ，写入过程中会进行排序（快速排序），当...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

如何处理JDBC批量插入sql不支持多表的情况下的入库速率不稳定的问题？

2条回答 默认 最新

悬赏问题

2条回答默认最新