Spark Task卡住的问题、Scheduler Delay 很长的问题

我写了一个label encoder的demo，逻辑很简单，从hive中读一张表(46.5M大小，很小很小)，
然后对多列进行label encoder(label encoder不支持多列，使用了pipeline操作)，然后从中抽取字典，最后写入hive中。

但是有个问题，就是在我执行到pipeline后面的action时，提交的作业会卡在这很久，不知道是什么原因，不可能是数据倾斜，这么小的数据。。。我对spark的调度只知表面，不知深层，请大神指点一二，谢谢各位大神。

下面是代码和ui界面：

代码部分

spark ui 相关界面

count at NullValueCheck 是校验一下空值，这个直接读取hive表，count一下，countByValue是StringIndexer类中的方法。他们的执行时间还可接受。

NullValueCheck的DAG图界面：

下面是countByValue方法的DAG图界面：

下面是count at LabelEncoder这了，这里提交了pipeline任务，然后就卡在这了：

下面两张是count at LabelEnocder job的DAG：

下面是这个stages界面，可以看到scheduler delay很长，task time 没有，任务卡在这了：

下面是executor界面供参考：

下面是这个卡住的用的总时长和后面保存表操作，可以看到这个提交pipeline任务的时间跟别的不在一个等级上，里面因为scheduler delay卡住很长时间:

烦请各位大神帮忙看下，通过这次指导我一定能从中获取到更多spark任务相关知识，谢谢各位大神了。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
黄大爱自由 2019-12-13 08:58
关注
我也遇到这个问题,我初步判断是小文件太多了.一个小文件启动一个task,,然后并行处理,,,,,合并小文件应该可以解决...

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Spark Task的各个动作时间来源以及Task Schedule Delay 问题排查
2021-11-18 17:38

wankunde的博客发现线上偶尔会出现一些Spark Task会显示Schedule Delay数分钟甚至十几分钟，所以要排查原因。 Task 时间分析以及Schedule Delay计算公式如图所示，时间轴上面的表示Driver 记录到的各个时间，时间轴下面的表示...
网络原因造成 spark task 卡住
2017-05-10 00:36

breeze_lsw的博客主机名映射出错背景：Yarn集群新加入了一批Spark机器后发现运行Spark任务时，一些task会无限卡住且driver端没有任何提示。解决：进入task卡住的节点查看container stderr日志，发现在获取其他节点block信息时，连接...
spark on yarn 中的延迟调度(delay scheduler)
2016-04-07 12:03

CxCo的博客延迟调度算法思想十分简单，为了实现data locality(即该task所需数据就在其运行的机器上)，会尽量将task分布到有其所需数据的机器或者jvm中去，如果机器或者jvm已被占用就进行延迟等待，直到该机器或者jvm可以运行该...
Spark推测执行解决SparkStreaming任务task卡死问题
2019-02-20 17:53

hongtaq156136的博客 Spark推测执行解决SparkStreaming任务task卡死问题景：测试环境运行一个SparkStreaming任务，yarn-cluster模式，duration为5分钟一个批次，每个批次平均2000w条records，并行度为60 资源配置为： ${SPARK_HOME}...
Spark2.0.X源码深度剖析之 TaskScheduler之Task划分
2017-07-13 10:16

按时吃早饭ABC的博客微信号：519292115 ... 尊重原创，禁止转载！！ ...Spark目前是大数据领域中最火的框架之一，可高效实现离线批处理，实时计算和机器学习等...Task作为Spark的最小执行单元在DAGScheduler划分好Stage之后会提交给TaskSch
spark优化问题
2018-03-18 20:44

xiaoyutongxue6的博客 1. 部分Executor不执行任务或task过多等待时间过长(1) 任务partition数过少，每个partition只会在一个task上执行任务。改变分区数，可以通过 repartition 方法，即使这样，在 repartition 前还是要从数据源...
Spark2.4.0源码——TaskScheduler
2019-07-08 17:19

weixin_30342827的博客　TaskScheduler定义了对任务进行调度的接口规范，目前spark只有taskSchedulerImpl一个实现类，用于接收DAGScheduler发送的taskSets，并按照资源调度算法将资源分配给task并提交task到executor上执行。　...
Spark UI如何高效地定位性能问题(下)
2024-08-01 17:04

猫猫姐的博客上一讲，我们一起梳理了 Spark UI 的一级入口。其中 Executors、Environment、Storage 是详情页，开发者可以通过这 3 个页面，迅速地了解集群整体的计算负载、运行环境，以及数据集缓存的详细情况。不过 SQL、Jobs、...
Spark Scheduler内部原理剖析
2017-10-26 18:33

yanzhelee的博客 Spark Scheduler内部原理剖析分布式运行框架Spark可以部署在多种资源管理平台，例如Yarn、Mesos等，Spark本身也实现了一个简易的资源管理机制，称之为Standalone模式。由于工作中接触较多的是Spark on Yarn，以下所...
[spark] TaskScheduler 任务提交与调度源码解析
2017-10-16 15:16

大写的UFO的博客在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后，再由TaskScheduler对taskSet进行调度……
没有解决我的问题, 去提问

Spark Task卡住的问题、Scheduler Delay 很长的问题

代码部分

spark ui 相关界面

3条回答 默认 最新

3条回答默认最新