Spark Task卡住的问题、Scheduler Delay 很长的问题

我写了一个label encoder的demo，逻辑很简单，从hive中读一张表(46.5M大小，很小很小)，
然后对多列进行label encoder(label encoder不支持多列，使用了pipeline操作)，然后从中抽取字典，最后写入hive中。

但是有个问题，就是在我执行到pipeline后面的action时，提交的作业会卡在这很久，不知道是什么原因，不可能是数据倾斜，这么小的数据。。。我对spark的调度只知表面，不知深层，请大神指点一二，谢谢各位大神。

下面是代码和ui界面：

代码部分

spark ui 相关界面

count at NullValueCheck 是校验一下空值，这个直接读取hive表，count一下，countByValue是StringIndexer类中的方法。他们的执行时间还可接受。

NullValueCheck的DAG图界面：

下面是countByValue方法的DAG图界面：

下面是count at LabelEncoder这了，这里提交了pipeline任务，然后就卡在这了：

下面两张是count at LabelEnocder job的DAG：

下面是这个stages界面，可以看到scheduler delay很长，task time 没有，任务卡在这了：

下面是executor界面供参考：

下面是这个卡住的用的总时长和后面保存表操作，可以看到这个提交pipeline任务的时间跟别的不在一个等级上，里面因为scheduler delay卡住很长时间:

烦请各位大神帮忙看下，通过这次指导我一定能从中获取到更多spark任务相关知识，谢谢各位大神了。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
黄大爱自由 2019-12-13 08:58
关注
我也遇到这个问题,我初步判断是小文件太多了.一个小文件启动一个task,,然后并行处理,,,,,合并小文件应该可以解决...

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

DolphinScheduler调用Shell脚本，从ES拉取数据到Hive。 elasticsearch hive
2022-10-21 17:22

回答 2 已采纳这是elasticsearch-hadoop RestClient部分的源码,https://github.com/elastic/elasticsearch-hadoop/blob/main/mr
配置hive on spark测试，创建表，insert测试效果报错，如何解决？ hadoop hive spark 有问必答
2022-04-21 01:37

回答 2 已采纳你在b站视频下面看看评论区，评论区下面的前几个有大佬提供了解决思路。我当时这里报错了，我用了评论区给的方法成功了。如果评论区的方法没有解决，说一个最不好听的方法，你把hive和spark重新装一遍。我
spark-submit提交py文件，一直提示资源不足~~ hadoop python spark
2021-07-16 08:59

回答 1 已采纳第一种：是spark节点的内存满了，加大执行内存，内存可以在spark的配置文件—>spark-env.sh中可以看到。这个配置文件路径在：/usr/local/spark-2.4.0-bin-
Spark Task的各个动作时间来源以及Task Schedule Delay 问题排查
2021-11-18 17:38

wankunde的博客发现线上偶尔会出现一些Spark Task会显示Schedule Delay数分钟甚至十几分钟，所以要排查原因。 Task 时间分析以及Schedule Delay计算公式如图所示，时间轴上面的表示Driver 记录到的各个时间，时间轴下面的表示...
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
在spark streaming中实时更新mllib的ALS算法的模型遇到的问题！ mllib spark
2015-06-15 09:01

回答 1 已采纳问题已解决。。。 allData 加上cache之后异常可以解决了，这是为什么呢？其中又出现了一个错误： ![图片说明](https://img-ask.csdn.net/upload/20
从taskscheduler运行时如何将进程名称分配给批处理文件 php windows
2016-01-11 19:27

回答 1 已采纳 This is vbs. Set WshShell = WScript.CreateObject("WScript.Shell") Set objWMIService = GetObject("
spark on yarn 中的延迟调度(delay scheduler)
2016-04-07 12:03

CxCo的博客延迟调度算法思想十分简单，为了实现data locality(即该task所需数据就在其运行的机器上)，会尽量将task分布到有其所需数据的机器或者jvm中去，如果机器或者jvm已被占用就进行延迟等待，直到该机器或者jvm可以运行该...
spark 调用SparkPi时，显示拒绝连接 hadoop spark 大数据
2023-03-15 15:46

回答 1 已采纳这篇文章：spark 运行自带样例SparkPi、spark-examples报错也许有你想要的答案，你可以看看
配置Nacos + Nginx + Spring Cloud出的问题 java nginx spring cloud
2021-10-29 19:23

回答 1 已采纳 1.如果访问ip要于linux系统的一致,需要在本地修改hosts文件绑定.2.你的nacos以集群模式启动,你看看你的配置文件中有没有配置集群模式,Nginx有没有负载均衡
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
spark优化问题
2018-03-18 20:44

xiaoyutongxue6的博客 1. 部分Executor不执行任务或task过多等待时间过长(1) 任务partition数过少，每个partition只会在一个task上执行任务。改变分区数，可以通过 repartition 方法，即使这样，在 repartition 前还是要从数据源...
关于#kylin#的问题，如何解决？ hbase kylin mr
2023-03-19 16:07

回答 1 已采纳参考GPT和自己的思路：根据报错信息来看，这个问题可能是由于 hbase-util 库版本不兼容导致的。您可以尝试更新 hbase-util 库，并重新编译和部署 kylin，看看是否可以解决该问题
Spark2.4.0源码——TaskScheduler
2019-07-08 17:19

weixin_30342827的博客　TaskScheduler定义了对任务进行调度的接口规范，目前spark只有taskSchedulerImpl一个实现类，用于接收DAGScheduler发送的taskSets，并按照资源调度算法将资源分配给task并提交task到executor上执行。　...
[spark] TaskScheduler 任务提交与调度源码解析
2017-10-16 15:16

大写的UFO的博客在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后，再由TaskScheduler对taskSet进行调度……
没有解决我的问题, 去提问

悬赏问题

¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler