weixin_43272283 2019-05-21 18:20 采纳率: 0%
浏览 1013

spark 任务执行时间长,最终卡挂了。

各位大佬,请教一个问题。
关于spark任务的。
一个大表和一个小表join,大表1.7亿条,小表几百条。
我已经把小表广播了。
在集群下执行的时候,总卡到一个task(通过ui看每次都是最后一个)上,然后长时间等待,最后报executor lost failure。就异常退出了!

这是怎么回事呢?

  • 写回答

1条回答 默认 最新

  • Me丶kang 2020-04-24 06:49
    关注

    数据倾斜了吧,先抽样reducebykey看一下各个key的分布

    评论

报告相同问题?

悬赏问题

  • ¥15 高德地图点聚合中Marker的位置无法实时更新
  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题
  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办