clickhouse如何去掉重复数据？

a，每天2份指标数据，上午的是新增，下午的是更新数据（有补数有新增，但是99%都是重复的数据）

b, 采用ReplacingMergeTree存储引擎，但是合并数据操作是后台不定时执行，在这期间会有重复数据，查询的时候会重复

c，如果解决改从哪方面入手，1落地的时候执行OPTIMIZE语句（阻塞？数据量大的时候会不会失效？每个月大概1千万的数据量）2、查询的时候用final 效率太低

有没有更好的解决方案

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-赖老师（软件之家） 2021-04-27 19:35
关注
把未处理的数据临时保存在hashmap里面效率是否比较高呢。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

不使用zk实现双机clickhouse、kafka数据同步 kafka zookeeper
2023-02-02 16:54

回答 4 已采纳 ''该回答引用ChatGPT''如对你的问题有帮助，请点击右侧采纳即可！没有使用ZooKeeper的话，一种可行的方案是利用ClickHouse的复制功能实现双机数据同步。ClickHouse的复制功
请教java后台向数据表添加数据总是失败问题 java ssh
2015-04-19 02:52

回答 2 已采纳看你的代码是把id赋值给了变量lxr,而你最后一行代码crumCustomerService.add(crumCustomerlxr)。你最终要添加到数据库的记录是那个呢？如果是crumCusto
clickhouse中查询某值每次变化的时间 java sql 大数据
2022-04-18 15:40

回答 1 已采纳 clickehouse支持窗口函数，可以使用lag配合sum来获取变化的位置大概像下面这样，我这里没数据环境不好测试。 select fanId,min(create_time) create_t
ClickHouse关于插入重复数据丢失问题
2022-11-22 11:07

PiscesCanon的博客 ClickHouse关于插入重复数据丢失问题对复制表多次写入重复数据无效。如下： dev-app76 :) select count(*) from zkm; SELECT count(*) FROM zkm Query id: 8e2bbf61-8adf-4fcc-a6d8-5601e258347d ┌─count()...
clickhouse部署问题大数据数据分析数据库
2022-11-24 16:50

回答 1 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：clickhouse集群部署步骤（包括部分问题解决方法）
clickhouse-client将数据按固定长度的数据量依次导出到csv文件大数据数据库有问必答
2023-04-17 18:24

回答 3 已采纳假设要导出的表名为mytable，每个CSV文件包含1000万条数据，输出的CSV文件名为mytable_1.csv、mytable_2.csv、mytable_3.csv等等，可以使用以下命令： c
怎样选择clickhouse表引擎 java 有问必答
2021-12-31 14:40

回答 2 已采纳就用MergeTree就行, 你可以指定或新增一个插入时间做order by
大数据系列——什么是ClickHouse？ClickHouse有什么用途？
2022-12-27 20:50

多则惑少则明的博客大数据系列——什么是ClickHouse？ClickHouse有什么用途？
若依多数据源从库配置连接的clickhouse的问题 spring 其他有问必答
2021-04-29 18:12

回答 4 已采纳提示你的表不存在呢，你看看你连接的数据库有没有这个表
数据库中Datetime类型对应java中的那种类型？ java 数据库
2017-10-20 14:14

回答 6 已采纳 java util.data
clickhouse 如何实现字段自增 sql
2020-12-13 09:01

回答 4 已采纳 clickhouse没有这个功能
spark数据写入clickhouse mergeTree引擎数据重复问题
2021-04-14 10:03

半条小咸鱼的博客最近在用clickhouse，用spark对数据分析完批量导入clickhouse之后发现数据被插入了很多遍，查找了很多资料，发现问题： 1、表引擎应该采用ReplacingMergeTree 2、需要手动进行merge，执行语句 optimize table ...
ClickHouse Kafka引擎 Json包含子对象如何处理 sql 其他有问必答
2021-05-31 12:12

回答 4 已采纳
为什么越来越多的公司开始用Clickhouse取代Elasticsearch？
2022-05-18 09:30

无敌码农～的博客在一些大数据实时数据服务中，一般需要将多维度的业务数据及离线计算数据以准实时查询的方式提供给业务方使用。在存储系统的选择上，像Hive这种大数据存储系统又并不太适合进行实时数据查询，而传统MySQL这种关系型...
删除重复数据只保留一条数据
2022-01-20 10:18

JFS_Study的博客一、表结构与数据 CREATE TABLE `duptab` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=latin1; INSERT ...
没有解决我的问题, 去提问

悬赏问题

¥15 VS2022 C++的相关代码问题咨询
¥15 如果要做一个老年人平板有哪些需求
¥15 k8s生产配置推荐配置及部署方案
¥15 matlab提取运动物体的坐标
¥15 人大金仓下载，有人知道怎么解决吗
¥15 一个小问题，本人刚入门，哪位可以help
¥30 python安卓开发
¥15 使用R语言GD包一直不出结果
¥15 计算机微处理器与接口技术相关问题，求解答图片的这个问题，有多少个端口，端口地址和解答问题的方法和思路，不要AI作答
¥15 如何根据一个截图编写对应的HTML代码

clickhouse如何去掉重复数据？

4条回答 默认 最新

悬赏问题

4条回答默认最新