monster-s
2019-02-21 15:56spark 出现很严重的数据倾斜,跑批时间很长,有时候会报错
有时候报java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE,但是分析sql里用到的key,在之前的商户号作为key的时候,差别也是最多的几百条,最少的几条,但是几百条的居多,以商户号和维度类别作为key的时候,分布如下
key条数正数5个
+---+---------------+--------------+
| 条数| merchant_id|statistic_type|
+---+---------------+--------------+
| 5| null| 5|
| 4|822100047220249| 5|
| 4|303300048120004| 5|
| 4|303450053310001| 5|
| 4|303650058130002| 5|
+---+---------------+--------------+
key条数倒数5个
+---+---------------+--------------+
| 条数| merchant_id|statistic_type|
+---+---------------+--------------+
| 1|822100051310533| 6|
| 1|822100059630118| 6|
| 1|822100052512420| 6|
| 1|822100055411357| 6|
| 1|822100058124973| 6|
+---+---------------+--------------+
,可是再task里,大部分都平均,就有某一个task数据量是其他的1000倍左右,看起来不像我group by的key分布不均导致的,请教各位大神,这是什么原因导致的?
- 点赞
- 回答
- 收藏
- 复制链接分享
1条回答
为你推荐
- Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'
- java
- intellij-idea
- java-ee
- scala
- eclipse
- 3个回答
- pycharm 执行有关spark代码出现错误
- python
- java
- scala
- 1个回答
- spark读取不了本地文件是怎么回事
- spark
- 2个回答
- pyspark 报错 python未找到命令
- python
- ubuntu
- spark
- 1个回答
- 还是昨天的Spark数据分析的问题,求代码,有帮助的可以再加C币
- 数据分析
- 图片
- 数据
- spark
- 2个回答