养浩爱你呦 2019-10-06 15:23 采纳率: 0%
浏览 523
已结题

如何处理JDBC批量插入sql不支持多表的情况下的入库速率不稳定的问题?

是这样的,现在我要从来自Kafka的20多个topic中消费出数据,每个topic对应Clickhouse里面的一个表。

但是Clickhouse的JDBC批量插入只支持预编译SQL,即每个 PrepareStatement对象只能批量插入一个表的数据。如下:

Connection connection = getConnection();
PrepareStatement ps = connection.prepareStatement("insert into xxx values (?, ?, ?, ?)");
ps.setObject(1, xxx);
ps.setObject(2, xxx);
ps.setObject(3, xxx);
ps.addBatch();
ps.executeBatch();
ps.clearBatch();
// ......

所以,我在入库程序把每个表的入库分为不同的线程,分别维护不同的PrepareStatement对象,
入库不同的表。比如现在有20个表,我设定每个表3个线程,那么总共就有60个入库线程。

但是这样子做的话,我无法保证入库的速率稳定,因为有的表数据量大,有的因为业务开启有时较大,而分配的入库线程是固定的。各位盆友有什么解决办法吗?

ps:入库程序用的flume,用的官方的KafkaSource,然后写了一个Clickhouse的Sink,每个sink就是对应一个入库clickhouse的线程。Channel用的文件内存通道。当Kafka数据量大时,入库速率远远小于消费速率,可能导致Channel通道满,堆积大量磁盘文件,读写磁盘操作又进一步影响sink取数据,然后越来越慢。。最后Kafka都报一堆问题。

再ps:Clickhouse是6个节点的集群,三个分片,一个副本的配置。我批量插入设置150000条一次批量插入。

  • 写回答

2条回答 默认 最新

  • threenewbee 2019-10-06 15:46
    关注

    说实话,你多线程除了让程序更慢,一点意义都没有,因为性能瓶颈在磁盘IO而不是CPU或者延迟上,如果你要优化插入的性能,少使用触发器、各种约束,关联等,这些都是开销。
    建议你可以考虑分库分表了。

    评论

报告相同问题?

悬赏问题

  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python
  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘