spark 出现很严重的数据倾斜，跑批时间很长，有时候会报错

目前在开发一个统计指标的脚本，跑批出现了严重的数据倾斜，

有时候报java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE，但是分析sql里用到的key,在之前的商户号作为key的时候，差别也是最多的几百条，最少的几条，但是几百条的居多，以商户号和维度类别作为key的时候，分布如下

key条数正数5个
+---+---------------+--------------+
| 条数| merchant_id|statistic_type|
+---+---------------+--------------+
| 5| null| 5|
| 4|822100047220249| 5|
| 4|303300048120004| 5|
| 4|303450053310001| 5|
| 4|303650058130002| 5|
+---+---------------+--------------+

key条数倒数5个
+---+---------------+--------------+
| 条数| merchant_id|statistic_type|
+---+---------------+--------------+
| 1|822100051310533| 6|
| 1|822100059630118| 6|
| 1|822100052512420| 6|
| 1|822100055411357| 6|
| 1|822100058124973| 6|
+---+---------------+--------------+

，可是再task里，大部分都平均，就有某一个task数据量是其他的1000倍左右，看起来不像我group by的key分布不均导致的,请教各位大神，这是什么原因导致的?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
shiter 人工智能领域优质创作者 2019-02-21 16:49
关注
你会不会是，某个物理节点物理空间满了？导致这个增多或者减少的问题

找到下面这个链接似乎靠谱点：

https://www.cnblogs.com/cssdongl/p/6594298.html

可以尝试调整并行度，将节点资源变大或者减小

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hibench测试spark时，准备数据的时候就报错了单元测试可用性测试有问必答测试工具
2021-05-18 15:45

回答 2 已采纳日志提示你检查端口了
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
spark sql join 1个driver很慢，其他很快，怀疑数据倾斜，帮解决可有偿私 spark
2021-11-24 10:01

回答 1 已采纳你把它复制到记事本发给我
详解 Spark Core 调优之数据倾斜调优（建议收藏
2021-09-12 22:21

mm_ren的博客文章目录一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的...
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
配置hive on spark测试，创建表，insert测试效果报错，如何解决？ hadoop hive spark 有问必答
2022-04-21 01:37

回答 2 已采纳你在b站视频下面看看评论区，评论区下面的前几个有大佬提供了解决思路。我当时这里报错了，我用了评论区给的方法成功了。如果评论区的方法没有解决，说一个最不好听的方法，你把hive和spark重新装一遍。我
spark 启动显示报错 hadoop spark 大数据
2023-03-14 21:18

回答 1 已采纳根据报错信息，似乎是找不到 "/usr/spark/master" 这个文件或目录。可能是你的路径设置有问题，或者是该路径下的文件或目录被删除或移动了。建议仔细查看路径设置和文件系统，确保路径设置正确
详解 Spark Core 调优之数据倾斜调优（建议收藏）
2021-08-30 09:00

浪尖聊大数据-浪尖的博客一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的key的...
spark导报上传报错 scala spark 大数据
2022-10-21 10:28

回答 2 已采纳命令的问题吧，./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode clus
hive on spark运行sql报错 hive spark 有问必答
2021-09-28 16:58

回答 2 已采纳该问题由hive与spark两者版本不兼容导致的，具体的解释，在官网是有说明的：Hive on Spark is only tested with a specific version of Spar
Linux上安装了Spark但无法运行，运行报错 hadoop spark 大数据
2023-04-21 16:19

回答 2 已采纳这篇博客: spark安装踩坑中的 2.JNI error 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读: 报错：A JNI error has occurred, pleas
数据倾斜问题-数据处理与分析过程中的杀手
2021-02-15 08:00

数据与智能的博客写在前面本文面向的读者是从事数据分析、数据处理（ETL）等相关工作的朋友们，相信大家在工作中一定遇到过数据倾斜的问题，读完本文，你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见...
Xshell成功连接虚拟机启动spark之后执行很慢，是我电脑问题吗 spark 有问必答
2021-06-12 23:04

回答 3 已采纳主要有两个原因，第一个就是你的电脑本身就不好，配置低，第二个就是你给这个虚拟机分配的运行内存不够或者说有点小了
Spark程序优化及常见报错问题分析
2018-03-12 15:23

raxanne的博客在实际的基于Spark平台的大数据分析项目中，为提高程序的运行效率，对程序进行优化是必不可少的，本文基于个人在大数据项目中使用Spark进行编程实现的实践经历，针对Spark程序优化问题进行总结，具体内容如下所述。...
漫谈千亿级数据优化实践：数据倾斜
2020-12-19 00:00

公众号:肉眼品世界的博客 0x00 前言数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很...
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

spark 出现很严重的数据倾斜，跑批时间很长，有时候会报错

1条回答 默认 最新

悬赏问题

1条回答默认最新