2 naeux naeux 于 2017.09.07 17:07 提问

如何清除hbase表中重复数据

类似mysql中table1表
id name
1 name1
2 name2
3 name1
我们可以使用
delete table1 from table1, (select max(id) mid, name from table1 group by name having count(id) > 1 ) as t2 where table1.name = t2.name and table1.id != t2.mid;
语句清除重复name值的数据,只保留其中重复数据中id最大的数据,得到:
id name
2 name2
3 name1

那么在hbase中,怎么清除表中某字段值重复的记录,而保留重复数据中最后一条数据?

求大神解答

1个回答

qq_17476231
qq_17476231   2017.09.07 17:11

用主键分组然后找到最大或最小的记录,不是最大或最小的记录全部删除

Csdn user default icon
上传中...
上传图片
插入图片