如何处理JDBC批量插入sql不支持多表的情况下的入库速率不稳定的问题? 40C

是这样的,现在我要从来自Kafka的20多个topic中消费出数据,每个topic对应Clickhouse里面的一个表。

但是Clickhouse的JDBC批量插入只支持预编译SQL,即每个 PrepareStatement对象只能批量插入一个表的数据。如下:

Connection connection = getConnection();
PrepareStatement ps = connection.prepareStatement("insert into xxx values (?, ?, ?, ?)");
ps.setObject(1, xxx);
ps.setObject(2, xxx);
ps.setObject(3, xxx);
ps.addBatch();
ps.executeBatch();
ps.clearBatch();
// ......

所以,我在入库程序把每个表的入库分为不同的线程,分别维护不同的PrepareStatement对象,
入库不同的表。比如现在有20个表,我设定每个表3个线程,那么总共就有60个入库线程。

但是这样子做的话,我无法保证入库的速率稳定,因为有的表数据量大,有的因为业务开启有时较大,而分配的入库线程是固定的。各位盆友有什么解决办法吗?

ps:入库程序用的flume,用的官方的KafkaSource,然后写了一个Clickhouse的Sink,每个sink就是对应一个入库clickhouse的线程。Channel用的文件内存通道。当Kafka数据量大时,入库速率远远小于消费速率,可能导致Channel通道满,堆积大量磁盘文件,读写磁盘操作又进一步影响sink取数据,然后越来越慢。。最后Kafka都报一堆问题。

再ps:Clickhouse是6个节点的集群,三个分片,一个副本的配置。我批量插入设置150000条一次批量插入。

2个回答

说实话,你多线程除了让程序更慢,一点意义都没有,因为性能瓶颈在磁盘IO而不是CPU或者延迟上,如果你要优化插入的性能,少使用触发器、各种约束,关联等,这些都是开销。
建议你可以考虑分库分表了。

baidu_36694784
养浩爱你呦 入得Clickhouse,没有外键触发器事务之类的概念,测试的环境集群是6个节点的。如果不考虑内存文件通道的问题,从入库方面有什么更好的建议。现在想到的是可以根据Kafka的分区数部署多几个flume入库程序,但好像不能从根本解决入库速率不均匀的问题。
4 个月之前 回复

批量insert into表数据也有上限,每张表数据也需要分批插入,比如一次2000条数据,且建议使用多个定时任务,不同表错开执行时间。

hjs218
Json-Huang 回复养浩爱你呦: 20张表,可以分批执行,不要在同一个时间点执行,这样每次执行可以使用更多cpu、内存资源,比如表1-4可以在1点执行,表5-8在3点执行,依此类推。
4 个月之前 回复
baidu_36694784
养浩爱你呦 现在是1w条数据一次批量插入,请问定时任务错开不同表执行时间是什么道理,不太懂。
4 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问