weixin_44000828 2021-12-21 14:37 采纳率: 0%

浏览 27

实时清洗使用spark submit提交任务的时候，根据接受的kafka数据量自动分配资源和task任务并且不影响集群上其他job执行

实时清洗使用spark submit提交任务的时候，根据接受的kafka数据量自动分配资源和task任务并且不影响集群上其他job执行

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
未来在这儿 2023-01-24 16:00
关注
望采纳！！！
1、还是需要考虑如果kafka存在rebalance的情况下，你要如何处理的问题。
2、kafka如果已经到位，可以通过消费的offset和最新的offset进行对比。如果实时进来的话，只能通过类似流量监控的包进行处理了。
3、还可以通过调整spark的executor和memory进行任务的启停。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月21日

悬赏问题

¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试，帮帮忙吧
¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建