flink写hudi 产生大量日志

怎么解决 flink通过HoodiePipeline 写数据到hudi表产生大量的日志
是用的flink的yarn-session启的容器里面只有这一个任务
写入代码

日志截图

看日志感觉是写hudi时间产生的
设置了日志配置

但是没有生效

请求解答

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一轮明月照丘壑 2024-09-26 17:55
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

要解决在Flink中通过Hoodie Pipeline写数据到Hoodie表并产生大量日志的问题，可以采用以下策略：

1. 设置日志级别

首先确保日志级别设置正确。对于Flink和Hoodie的日志记录，可以通过修改log4j.properties文件中的rootLogger和logger部分来控制日志输出。

修改示例：

log4j.rootLogger=WARN log4j.logger.org.apache.hudi=WARN

这将使所有的Flink操作都默认为WARN级别，并且只对Apache Hudi进行警告级别的记录。

2. 调整日志格式

确保日志格式与输出的日志文件类型匹配。例如，如果你正在使用HoodieTimelineArchiver来存储活动日志，那么可能需要调整log4j.properties以指定正确的日志文件格式。

3. 使用合适的日志输出方式

确保日志被正确地写入到文件系统中。这里主要考虑的是如何有效地管理大文件，特别是当文件大小超过一定阈值时。

示例代码：

// 在StreamExecutionEnvironment中添加日志收集器 env.addSource(new LogCollector());

4. 日志轮换和清理

为了防止过大的日志文件导致磁盘空间不足，可以考虑日志轮换和定期删除旧日志文件。

示例代码：

// 每隔一段时间（如每小时）检查旧的日志文件并移除它们 ScheduledExecutorService executorService = Executors.newSingleThreadScheduledExecutor(); executorService.scheduleAtFixedRate(() -> { File oldLogFile = new File("/path/to/logfile.log"); if (oldLogFile.exists()) { // 删除旧的日志文件 oldLogFile.delete(); } }, 0, 1, TimeUnit.HOURS);

5. 确保有足够的资源

确保有足够的RAM和CPU资源来处理大文件以及执行所有必要的操作。

示例代码：

// 设置适当的内存限制 env.setMemoryLimit("1G");

6. 避免过度写入

在写入大量数据之前，应先尝试性写入少量数据来验证数据写入是否正常。

7. 数据校验和错误处理

在整个过程中，务必包括数据校验和错误处理机制，以确保数据安全性和完整性。

示例代码：

// 加载数据前进行校验 DataStream<String> dataToLoad = env.fromCollection(Arrays.asList("Hello", "World")); // ...

通过以上步骤，应该能够有效解决通过Hoodie Pipeline写数据到Hoodie表并产生大量日志的问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

批流一体大数据架构：Flink + Hudi实战解析
2026-01-13 23:59

AI应用架构探索者的博客批流一体大数据架构：Flink + Hudi实战解析引言数据架构的演进：从批流分离到批流一体在大数据领域，数据处理长期面临一个核心矛盾：批处理与流处理的割裂。传统架构中，批处理（如Hadoop MapReduce、Spark Batch...
大数据之数据湖---flink 整合hudi
2021-10-05 23:22

wudl5566的博客 Hudi最大的特点就是会进行预写日志功能，也就是把所有的操作都先预写，然后一旦发生问题就会先找预写日志Log，进行回滚或者其他操作，所以你会发现在Hudi中，它会写很多Log日志。三大特点：流式读写、自我管理、...
基于flink&hudi批流一体技术
2024-04-21 18:20

你很潮小心发霉的博客 Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi 用于管理的数据库层上构建具有增量数据管道的流式数据湖，同时针对湖引擎和常规批处理进行了优化。简言之，Hudi是一...
30分钟掌握沧湖一体化：flink+hudi（干货，建议收藏）_flink hudi sink
2024-09-03 19:36

2401_86436868的博客通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外，会...这个问题坑了我好几天，一度都打算放弃hudi了，表面上很正常，日志也没有任何报错，也可以看出来cdc起作用了，有数据写入，但是就是卡在。
【Hudi】Flink + Hudi 实践
2022-03-07 15:47

默默走开的博客正好，最近数据湖的概念火的一塌糊涂，特别是 Hudi ，与 Flink 的结合越来越好，可以说 Flink + Hudi 就是未来的趋势，这不，我就来简单讲讲，给 “小白”当个引路人，让知识传播给大家，毕竟我也是从小白看着别人...
30分钟掌握沧湖一体化：flink+hudi（干货，建议收藏）_flink hudi sink(1)
2024-09-18 17:16

2401_87204857的博客 Hudi解决了以下限制。
Hudi集成Flink-写入方式
2023-04-14 00:08

宝哥大数据的博客 1、kafak 作为源表，flinksql 消费kafka。1、使用 mysql-cdc 监听 binlog。3、将 kafka 中数据写入 hudi。2、kafka 作为 sink表。接下来我们主要介绍第二种方式。2、创建hudi目标表。3、写入sink 表。
Flink+Hudi 构架湖仓一体化解决方案
2021-10-14 21:30

Apache Flink的博客 ▼ 关注「Flink 中文社区」，获取更多技术干货▼摘要：本文详细介绍了 Flink + Hudi 湖仓一体化方案的原型构建。主要内容为：Hudi新架构与湖仓一体最佳实践Flink on...
hudi实战-- hudi on flink 参数配置大全
2023-01-05 10:31

阿华田512的博客简介 FlinkSQL读写hudi, 官方提供定义主键、写入方式、合并记录、启用/禁用异步压缩或选择要读取的查询类型等配置参数。可以根据业务类型合理的设置这些配置项，不仅可以提高Flink任务读写hudi的性能，还可以节约...
流式数据湖平台实战 | 在FlinkSQL中集成和使用Hudi
2023-10-07 12:06

shangjg3的博客 2.插入数据本文介绍在Flink 中集成和使用Hudi。介绍Flink如何将Streaming引入Hudi。在Hudi上使用Flink，并学习Flink读写Hudi的不同模式：Flink SQL客户端写入：Flink SQL客户端写入（读取）Hudi。配置：对于全局配置...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月26日

flink写hudi 产生大量日志

1条回答 默认 最新

1. 设置日志级别

修改示例：

2. 调整日志格式

3. 使用合适的日志输出方式

示例代码：

4. 日志轮换和清理

示例代码：

5. 确保有足够的资源

示例代码：

6. 避免过度写入

7. 数据校验和错误处理

示例代码：

问题事件

1条回答默认最新