海豚报SERVER_DOWN2

1、问题现象
海豚的版本是3.1.7
报的错误信息如下
Fault tolerance warning
[{"type":"WORKER","host":"/nodes/worker/dolphinscheduler-worker-1.dolphinscheduler-worker-headless:1234","event":"SERVER_DOWN","warningLevel":"SERIOUS"}] 。

2、查看日志
查看日志时，发现报错的那个时间点都有以下相关日志，
关键字current cpu load average x is too high or available memory x is too low

[WARN] 2024-11-06 16:50:59.108 +0800 org.apache.dolphinscheduler.server.worker.task.WorkerHeartBeatTask:[101] - [WorkflowInstance-0][TaskInstance-0] - current cpu load average 236.01 is too high or available memory 14.36G is too low, under max.cpuload.avg=160.0 and reserved.memory=0.3G
[INFO] 2024-11-06 16:50:59.109 +0800 org.apache.dolphinscheduler.server.worker.task.WorkerHeartBeatTask:[89] - [WorkflowInstance-0][TaskInstance-0] - Success write worker group heartBeatInfo into registry, workerRegistryPath: /nodes/worker/dolphinscheduler-worker-0.dolphinscheduler-worker-headless:1234 workerHeartBeatInfo: {"startupTime":1730882939081,"reportTime":1730883059108,"cpuUsage":0.39,"memoryUsage":0.94,"loadAverage":236.01,"availablePhysicalMemorySize":14.36,"maxCpuloadAvg":160.0,"reservedMemory":0.3,"diskAvailable":283.33,"serverStatus":1,"processId":8,"workerHostWeight":100,"workerWaitingTaskCount":0,"workerExecThreadCount":100}
[WARN] 2024-11-06 16:51:09.111 +0800 org.apache.dolphinscheduler.server.worker.task.WorkerHeartBeatTask:[101] - [WorkflowInstance-0][TaskInstance-0] - current cpu load average 204.41 is too high or available memory 14.78G is too low, under max.cpuload.avg=160.0 and reserved.memory=0.3G

3、请问如何解决以上问题？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
越重天新星创作者: Java技术领域 2024-11-08 22:39
关注
本答案参考多次询问 ChatGPT-3.5 后选择的最佳回答，若是满意，还请采纳，谢谢

根据提供的信息，问题可能是由于CPU负载过高或者可用内存过低导致的，以下是一些可能的解决方法：

一、关于CPU负载过高

优化任务调度

检查工作流中的任务调度策略。如果有大量任务同时启动，可能会导致CPU瞬间负载过高。例如，如果有多个计算密集型任务在同一时间点被调度到同一worker节点上，可以调整任务的调度时间，使它们在时间上分散开来。
对于一些可以并行执行但对资源需求较大的任务，可以设置合理的并发度。比如，在Dolphinscheduler中，可以通过调整任务的并行参数，避免过多任务同时竞争CPU资源。

检查任务代码效率

查看报CPU负载高时正在执行的任务代码。如果是自定义脚本任务，可能存在代码效率低下的情况。例如，存在无限循环或者复杂的嵌套循环，且没有进行有效的优化。可以对代码进行性能分析，找出耗时的操作并进行优化。
如果是数据处理任务，如使用SQL进行数据查询和处理，检查SQL语句是否可以优化。例如，避免使用全表扫描的查询语句，添加合适的索引等。

资源分配调整

考虑增加worker节点的CPU资源分配。如果是在容器化环境（如Kubernetes）中运行Dolphinscheduler，可以调整worker容器的CPU请求和限制。例如，将CPU请求从原来的较低值提高到一个更合理的值，以满足任务的需求。
或者调整集群的资源分配策略，确保有足够的CPU资源可供Dolphinscheduler使用。如果是在混合负载的集群中，可能需要调整其他非关键任务的资源分配，以优先保障Dolphinscheduler的运行。

二、关于可用内存过低

内存使用优化
检查工作流中的任务是否存在内存泄漏的情况。特别是对于长时间运行的任务，如果存在内存不断增长的情况，需要查找代码中的问题。例如，在Java任务中，如果没有正确释放对象引用，可能会导致内存泄漏。
优化任务对内存的使用。如果是数据处理任务，可以考虑分批次处理数据，而不是一次性将大量数据加载到内存中。例如，在处理大数据集时，可以设置合适的批处理大小，以减少内存的占用。

增加内存资源
类似于CPU资源调整，如果是在容器化环境中，可以增加worker容器的内存请求和限制。例如，将内存限制从当前的较低值提高到一个能够满足任务需求的值。
如果是在物理机或虚拟机上运行，可以考虑增加服务器的物理内存，或者调整虚拟机的内存分配。

调整内存预留参数
根据实际情况，重新评估reserved.memory参数的设置。如果当前设置的值过高，可能会导致可用内存过早被判定为过低。可以根据集群的整体资源情况和任务的实际内存需求，适当降低这个参数的值，但要确保不会影响系统的稳定性。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

uni app和php开发微信登录代码,ThinkPHP6.0 + UniApp 实现小程序的微信登录
2021-04-21 07:52

Tim Pan的博客用户点击页面微信登录按钮【】获取用户数据，然后调用后台接口写入数据库在 applets/main.js 中添加如下 // 封装全局登录函数 // backpage, backtype 2个参数分别代表： // backpage : 登录后返回的页面 // ...
wordpress主题制作_针对WordPress的犯罪：如果制作WordPress主题和插件，如何成为一个真正的混蛋
2020-08-28 10:12

culi3118的博客 you may as well start throwing rusty nails into my eyes, because that’d be more fun than tracking down the cause of the CSS bugs that arise because of this: 这简直是残酷的。您不妨开始将生锈的...
Liunx笔记
2018-12-24 20:36

weixin_30871701的博客主板内存 cpu 硬盘显卡声卡网卡2.内存，CPU，硬盘的作用? 内存:负责临时存储你所打开的程序的暂时存储使用，不管什么程序都需要在内存里才能够运行，特点存储速度快 CPU:电脑的主芯片，就像人的大脑，数据的...
爬虫~爬爬爬~task1
2020-04-21 19:08

韩绘锦的博客这个应答服务器成为源服务器（origin server）。在用户代理和源服务器中间可能存在多个“中间层”，比如代理服务器、网关或者隧道（tunnel）。尽管TCP/IP是互联网最流行的协议，但HTTP中并没有规定必须使用它或它...
爬虫1
2020-04-21 21:45

阿龙NEO的博客互联网、HTTP 互联网互联网也叫... 我们打开 Chrome 浏览器，访问博客站的首页，打开 F12 开发者工具，可以看到： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qB39CCK2-1587465323992)...
Datawhale--组队学习第12期--python爬虫基础学习---task0/task1环境配置和网页请求基础
2020-04-21 23:12

A half moon的博客这个应答服务器成为源服务器（origin server）。在用户代理和源服务器中间可能存在多个“中间层”，比如代理服务器、网关或者隧道（tunnel）。尽管TCP/IP是互联网最流行的协议，但HTTP中并没有规定必须使用它或它...
学习 React(jsx语法) + es2015 + babel + webpack
2019-10-01 00:26

dicha7140的博客视频学习地址： ... ...解决方案：webpack中的loader:"babel-loader"，不要简写... $arr[2]["info"] = "所有人类的灵魂都是海里一条巨大的鱼，出生的时候从海的此岸出发，在路途中，有时相遇，有时分开，死的时候去到...
列表
2014-05-10 12:08

weixin_33979203的博客好文地址我的成长磨练：每天写博客开发者的黄金时代=运维人员的恶梦？ Linux下Nagios的安装与...CactiEZV10.1中文版Cacti中文解决方案+使用教程（2） os的进程调度（读书笔记） Linux下进程信息的深入分析 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月7日

海豚报SERVER_DOWN2

1条回答 默认 最新

问题事件

1条回答默认最新