由于公司需要构建实时数仓,所以需要对经由debezium采集的mysql和oracle数据库的数据变更记录写入到hive数仓中,并及时反馈给业务系统使用,hive的查询使用的是presto,实时数据处理任务采用flink,环境配置具体如下:
hadoop 2 10 0
hive 2 3 6
flink 1 13 1
presto 0 260
现有一张hive分区表,单个分区的数据量为10万,由于presto不支持update操作,所以如果要进行update操作,需要用presto查询出该分区的原数据,写入临时表,然后删除并重建该分区,将修改后的数据和原数据拼装后,重新写入新分区,在这过程中发现使用presto执行insert select单次插入数据1000条就需要12秒多,不能满足实时数据查询的需要
请问如何实现对hive分区表的实时更新呢?