繁星蓝雨 2021-07-30 19:50 采纳率: 0%

已结题

对原表进行upsert后，Hudi的parquet文件名中writeToken会变动，导致Incremental query失败

@[toc]

0 原因猜测

每次对原标进行upsert操作，hoodie都会产生log，然后进行compaction，从而导致该时间点以前的增量查询无法操作。

1 现象重现

下面是对原标进行的所有操作。
请添加图片描述

1.1 操作一（更新）

首先对原表进行一次upsert操作（更新370数据），然后使用增量查询，结果成功
请添加图片描述
使用hadoop指令查询HDFS文件，出现log日志，数据被写到了log文件中，并未写到parquet中：

请添加图片描述

查询hoodie的详细操作，并未进行compaction操作：

请添加图片描述

1.2 操作二（插入和更新）

对原表数据进行插入6条数据并更新380数据，使用spark查询的HDFS中数据变化如下：
请添加图片描述

发现370数据又被重复commit。使用spark进行增量查询，曝出如下错误：

21/07/30 14:25:45 ERROR executor.Executor: Exception in task 0.0 in stage 2.0 (TID 4)
java.io.FileNotFoundException: File does not exist: hdfs://hdp-jk-1:8020/user/hive/warehouse/test_increment_hudi9_mor/2021/07/30/4fe43850-4be8-447f-827e-edfdba44adb4-0_0-340-294_20210730142459.parquet

使用hadoop指令查询instantTime的20210730142459的parquet如下，发现实际的writeToken为341-295,而进行查询的writeToken为340-294，说明了文件被再次写入了一次，导致writeToken被改变，使得spark增量查询到了一个失效或不存在的parquet文件。

请添加图片描述
查询hoodie的详细操作，发现instantTime为20210730142459的数据被compaction了一次，导致数据被重写了一次，进而writeToken被改变。

请添加图片描述

2 排除其他因素

现在只对原表数据进行insert操作，发现不产生log文件，未进行compaction操作。但是只要一对原表进行upsert操作，就会会产生log，并进行压缩。
请添加图片描述

3 解决方法

之前尝试针对错误的数据，

请添加图片描述
查询campaction的情况：

查询campaction的情况

使用hudi-cli.sh中compaction repair --instant 20210730112532修复压缩，结果还是无法增量查询。

请添加图片描述

3.1 解决方法一

把对原表所有的upsert操作，都转换为insert操作。

3.2 解决方法二

调整Hudi中compaction操作，例如hoodie.compaction.strategy。目前还没有发现有用的调整策略。

目前已做尝试，但对upsert导致增量查询失败并没有帮助。
请添加图片描述

还望大家能指出正确的解决方法。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-08-02 16:46
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

对原表进行upsert后，Hudi的parquet文件名中writeToken会变动，导致Incremental query失败
2021-07-30 19:41

繁星蓝雨的博客文章目录0 原因猜测1 现象重现1.1 操作一（更新）1.2 操作二（插入和更新）2 排除...首先对原表进行一次upsert操作（更新370数据），然后使用增量查询，结果成功使用hadoop指令查询HDFS文件，出现log日志，数据被写到
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中
2022-11-23 22:35

IT小神的博客理论后转战集成Spark的使用，通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例，了解创建表、修改表结构、查询分区、删除分区基本用法，为进一步使用...
[大数据]Hudi编译集成
2024-12-10 15:36

墨尔本、晴的博客 1）安装Maven（1）上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录，并解压更名（2）添加环境变量到/etc/profile中（3）测试安装结果mvn -v2）修改为阿里镜像（1）修改setting.xml，指定为阿里仓库地址。
hudi概念与设计介绍
2021-09-18 09:03

宝哥大数据的博客文章目录一、应用场景二、概念/术语2.1、Timeline2.2、Time2.3、文件管理2.4、...UPSERT)3.3、写流程(INSERT)3.4、工具3.5、Key 生成策略3.6、删除策略四、数据读4.1、Snapshot 读4.2、Incremantal 读4.3、Streaming 读
HUDI原理及深入探究(一)
2022-03-15 17:41

shining_yyds的博客 Hudi，正式的全称是Hadoop Upsert Delete and Incremental。其实关于这个名字也不用太较真，因为都是后来附会上去的，从源代码里可以看到这个项目最初的名字是hoodie，和现在的名字发音相同。但这个名字还是透露了...
数据湖浅析(以hudi为例)
2022-09-18 20:36

weixin_45626756的博客 parquet文件的footer中会存储文件中的列信息，将parquet文件中的列信息和iceberg metastore中的列信息通过一个唯一ID建立映射关系。当读取文件时，根据iceberg metastore中列的ID信息，在parquet文件filter出对应列...
数据湖系列(1) - Hudi 核心功能原理剖析
2022-07-15 16:54

小晨说数据的博客随着互联网业务的逐步成熟，数仓和模型训练的基本盘逐步稳固，越来越多的工程师...概要网上关于 Hudi 和 Iceberg 对比的内容有很多，比如 Iceberg 对 Schema 友好，Hudi 支持 Upsert 等优劣点的对比，这些内容很大程...
Apache Hudi - 2 - 基础功能&特性实践
2022-03-21 18:50

木鱼Gavin的博客实践了Hudi官网提到的部分特性（功能）
2024年最值得学习的大数据分布式计算框架Top10
2025-08-22 20:29

AI软件工程实践的博客写入增量数据文件（Parquet）写入commit元数据（JSON）执行UPSERT操作（更新数据）写入数据文件（Parquet）写入事务日志（JSON）执行INSERT操作。请求开始commit。返回commit成功。
数据湖技术之Hudi 核心概念
2022-09-27 15:16

潘小磊的博客 Hudi数据湖框架的基本概念及表类型，属于Hudi框架设计原则和表的设计核心。文档：https://hudi.apache.org/docs/concepts.html。
大数据开发面试
2023-10-28 08:50

趁.的博客 大数据开发常用框架面试总结
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客不会丢数：断点续传重复数据：有可能（4）存在的问题及解决方案 ①问题：新文件判断条件 = iNode值 + 绝对路径（包含文件名）日志框架凌晨修改了文件名称=》导致会再次重读一次昨天产生的数据 ②解决：方案...
Apache Hudi核心概念一网打尽
2021-04-10 16:58

xleesf的博客 1. 场景 https://hudi.apache.org/docs/use_cases.html ...Hudi 作为 lib，非常轻量增量 pipeline 区分 arrivetime 和 event time 处理延迟数据更短的调度 interval 减少端到端延迟 (小时 -&gt
数据湖定义
2024-10-28 09:26

吹老师个人app编程教学的博客当一个client正在读取v1的数据时，另一个client可以同时写入新的数据，新的数据会被写入新的文件里，不影响v1用到的数据文件。后续的client再读取时，读到的就是v2的数据。如果是 update 消息，写对应的 file group ...
My 实践文档
2023-11-10 16:03

龙王の牢饭的博客内部表（ORC、ROW、MAGMA、Hudi） 2. 外部表（ORC、TEXT、CSV） 4. 导入导出 1. COPY 2. gpfdist 六、Maven 1. Maven 导入本地 jar 包 2. 外部表（ORC、TEXT、CSV） 4. 导入导出 1. COPY 2. gpfdist 六、Maven 1. ...
03_Hudi 核心概念、时间轴Timeline、文件管理、索引Index、存储类型、计算模型、批式模型Batch、流式模型Stream、增量模型Incremental、查询类型、数据写操作流程等
2023-08-11 22:46

涂作权的博客的博客 Hudi 核心概念3.1 基本概念3.1.1 时间轴Timeline3.1.2 文件管理3.1.3 索引Index3.2 存储类型3.2.1 计算模型3.2.1.1 批式模型（Batch）3.2.1.2 流式模型（Stream）3.2.1.3 增量模型（Incremental）3.2.2 查询类型...
Hudi之数据读写探究
2024-05-29 16:40

王亭_666的博客操作类型I/O开销CPU开销写入吞吐量磁盘空间利用内存消耗并发处理能力网络开销INSERT-写入最低几乎无需计算吞吐量较高低低一般低BULK_INSERT-批量写需要更多I/O有一些计算需求吞吐量最高较低较低高低UPSERT-更新或...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月30日

对原表进行upsert后，Hudi的parquet文件名中writeToken会变动，导致Incremental query失败

0 原因猜测

1 现象重现

1.1 操作一（更新）

1.2 操作二（插入和更新）

2 排除其他因素

3 解决方法

3.1 解决方法一

3.2 解决方法二

1条回答 默认 最新

问题事件

1条回答默认最新