数据量比较大的情况下OOM

kafka消费不断拉取数据消费，过滤掉一部分不符合要求的数据，我组长要求剩下的存入内存（两个map)，定时器定时取出处理。在测试阶段，每2分钟取出约60万条数据，其中我测了一下，每5000条数据就要花费约12秒左右。这边在处理，同时kafka消费者又在不断接受数据向内存放数据，这一批数据根据处理不完就OOM了。

目前做法是定时器取出后，使用线程池分批处理，但OOM了。后来他让我改为串行执行，估计了一下大概需要20分钟，期间kafka消费者一直向内存放数据，也OOM了。因为条件原因，不能加什么机器的，内存也就分配了4G

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-08-07 08:29
关注
【以下回答由 GPT 生成】

首先，我们需要找出导致OOM错误的原因，以便采取相应的解决方案。OOM错误通常是由于内存不足导致的，可能的原因有以下几种：

数据量过大：在每2分钟处理60万条数据的情况下，可能会导致内存不足。可以尝试减少每次处理的数据量，进行分批处理。

内存泄漏：可能存在内存泄漏的情况，导致内存无法正常释放。可以使用Java内存分析工具（如VisualVM、jmap/jhat等）来识别和解决内存泄漏问题。

数据结构不合理：使用的Map可能不适合存储大量的数据。可以考虑使用更高效的数据结构，如Redis等，以减少内存的占用。

针对以上可能的原因，我提供以下解决方案：

分批处理数据：将每2分钟的数据分批处理，每次处理一部分数据。可以使用Kafka的分区机制，每个消费者只消费特定的分区，以避免一次性处理过多的数据。

// 每次处理的数据条数 int batchSize = 5000; while (true) { // 每次从Kafka消费数据的逻辑 List<Message> messages = kafkaConsumer.poll(batchSize); // 数据过滤和存储逻辑 // ... // 定时处理数据的逻辑 // ... }

优化内存使用：检查代码中是否存在内存泄漏的情况，使用Java内存分析工具来进行分析。同时，可以考虑对Map进行优化，如使用LRU缓存等。另外，可以尝试对数据进行压缩，减少内存占用。

// 使用ConcurrentHashMap来替代HashMap，以提高并发性能 Map<Key, Value> map = new ConcurrentHashMap<>(); // 使用LRU缓存来限制Map的大小，防止内存溢出 int maxEntries = 10000; Map<Key, Value> map = new LinkedHashMap<Key, Value>(maxEntries + 1, 0.75F, true) { protected boolean removeEldestEntry(Map.Entry<Key, Value> eldest) { return size() > maxEntries; } }; // 使用压缩算法对数据进行压缩，减少内存占用 byte[] compressedData = compress(data);

增加处理线程：可以使用线程池来增加处理数据的并发性能，减少处理时间。但需要注意控制线程数，以免过多线程导致系统负载增加。

ExecutorService executorService = Executors.newFixedThreadPool(nThreads); while (true) { List<Message> messages = kafkaConsumer.poll(batchSize); executorService.execute(new DataHandler(messages)); }

总结：在给定的条件下，要解决OOM错误并优化数据处理速度，建议采取以下措施： - 分批处理数据，减少每次处理的数据量，避免内存不足。 - 优化内存使用，检查是否有内存泄漏问题，选择合适的数据结构和压缩算法。 - 增加处理线程，利用线程池进行并发处理，提高处理速度。请根据以上建议分析和调整代码，以解决问题。如果还遇到困难，可以提供更多具体的代码和错误信息，以便得到更准确的帮助。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

2021 编程语言排行榜出炉！
2022-01-11 00:00

程序员的成长之路的博客 IEEE 2021 编程语言排行榜的具体情况如下。 Top 10 编程语言：Python 五连冠、微软 C# 语言排名飞升与 2020 年排行榜相比，Python、Java、C、C++ 和 JavaScript 依然占据 2021 排行榜的前 5 名。但是，6 至 10 名...
详解 Flink 容器化环境下的 OOM Killed
2021-01-05 21:22

Apache Flink的博客在大多数场景下 Flink 的内存模型和默认已经足够好用，可以帮用户屏蔽进程背后的复杂内存结构，然而一旦出现内存问题，问题的排查和修复都需要比较多的领域知识，通常令普通用户望而却步。为此，本文将解析 JVM 和 ...
浅谈虚拟内存与项目开发中的OOM问题
2022-06-13 09:50

Jerish_C的博客这是【游戏开发那些事】第55篇原创文章中关于...由于游戏在研发中需要加载大量的美术资源，频繁的创建与销毁各种对象，就很容易遇到各种内存问题，比如最常见的OOM，"Out of Memory"(OOM)。>>UE4触发OOM逻辑...
Java OOM原因与应对
2024-11-18 21:11

一叶飘零_sweeeet的博客 Java OOM 问题虽然看似棘手，但只要我们深入理解 Java 的内存管理机制，熟悉 OOM 的各种常见类型及产生原因，掌握有效的排查工具和解决方法，并且在开发过程中养成良好的代码设计和编程习惯，就能很好地预防和应对它...
千万不要这样写代码！9种常见的OOM场景演示
2020-11-30 08:00

sufu1065的博客 java.lang.OutOfMemoryError: Java heap space at oom.JavaHeapSpaceDemo.main(JavaHeapSpaceDemo.java:13) 2.2 原因分析请求创建一个超大对象，通常是一个大数组超出预期的访问量/数据量，通常是上游系统请求...
DolphinDB 编程进阶：掌握这十个细节，让你的代码更出色
2024-08-05 17:03

DolphinDB智臾科技的博客今天和大家分享的内容是：使用 ...本文涵盖了元编程技巧、数据类型处理技巧以及分区策略优化等方面，旨在帮助大家有效避免分区冲突、计算错误、性能瓶颈、堆栈溢出等问题，从而在数据处理的征途上更加游刃有余。
腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统
2021-10-07 20:50

过往记忆的博客另一个问题是腾讯看点的数据量太大，带来的不稳定性也比较大，经常会有预料不到的延迟，所以离线分析平台是无法满足这些需求的。 ■ 2.2 准实时数据分析平台在腾讯内部提供了准实时数据查询的功能，底层技术用的...
Java的OOM问题及解决方案
2024-03-03 00:33

极客李华的博客在Java应用程序开发中，Out of Memory（OOM）错误是一种常见的问题。当应用程序试图申请更多内存而可用内存不足时，就会导致OOM错误。
10种常见OOM分析——手把手教你写bug
2020-07-21 10:10

π大新的博客谈谈你对 OOM 的认识点赞+收藏就学会系列，文章收录在 GitHub JavaKeeper ，N线互联网开发必备技能兵器谱，笔记自取在《Java虚拟机规范》的规定里，除了程序计数器外，虚拟机内存的其他几个运行时区域都有发生...
【安卓笔记】OOM与内存优化
2025-07-24 22:10

liosen的博客简单介绍：1. OOM常见场景和解决方案。2. 内存分析命令的功能和使用。3. 内存分析工具MAT的功能和简单使用方法。
Java 内存溢出排查优化实战：彻底干掉臭名昭著的 OOM
2025-05-07 11:28

越重天的博客 OutOfMemoryError，也就是臭名昭著的 OOM（内存溢出），相信很多球友都遇到过，相对于常见的业务异常，如数组越界、空指针等，OOM 问题更难难定位和解决。这篇内容就以之前碰到的一次线上内存溢出的定位、解决...
基于 Flink 构建万亿数据量下的实时数仓及实时查询系统
2021-10-19 09:00

浪尖聊大数据-浪尖的博客另一个问题是腾讯看点的数据量太大，带来的不稳定性也比较大，经常会有预料不到的延迟，所以离线分析平台是无法满足这些需求的。 ■ 2.2 准实时数据分析平台在腾讯内部提供了准实时数据查询的功能，底层技术用的...
技术研究｜深度探讨大语言模型微调技术
2025-02-21 17:08

Ai野生菌的博客通过引入特定领域的数据集进行微调，大模型可以学习该领域的知识和语言模式，这有助于模型在特定任务上取得更好的性能。继上一篇文章（工具推荐）后，我们将继续深入探讨现代语言模型微调的技术体系。
什么是OOM，为什么会OOM及一些解决方法【转载】
2021-03-05 21:13

小帅陪你自学编程的博客 1）什么是OOM？ OOM，全称“Out Of Memory”，翻译成中文就是“内存用完了”，来源于java.lang.OutOfMemoryError。看下关于的官方说明：Thrown when the Java Virtual Machine cannot allocate an object because ...
2026年编程语言选择指南:从大厂招聘JD看技术栈真相
2025-12-25 00:06

前端达人的博客作为一个在一线摸爬滚打的程序员,我翻遍了字节、阿里、腾讯最近半年的招聘JD,对比了GitHub、Stack Overflow的最新数据,结合实际项目经验,写下这篇"不吹不黑"的编程语言选择指南。把"指针"和"内存泄漏"这两个程序员的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月6日

数据量比较大的情况下OOM

1条回答 默认 最新

问题事件

1条回答默认最新