spark DDL union后插入Doris报spark.driver.maxResultSize

使用DDL把DataFrame(由sparksql转化，注：sparksql中也做了多个union all操作) 做union处理后向Doris插入数据，报spark.driver.maxResultSize ，请big old讲解一下问题的原因以及如果优化，感谢


  private def processRepartition(dateframe1:DataFrame,dataFrame2: DataFrame,dataFrame3: DataFrame,dataFrame4: DataFrame
                                ,dateframe5:DataFrame,dataFrame6: DataFrame,dataFrame7: DataFrame):DataFrame={
    dateframe1.union(dataFrame2).union(dataFrame3).union(dataFrame4).union(dateframe5).union(dataFrame6).union(dataFrame7).repartition(200)
      .persist(StorageLevel.MEMORY_AND_DISK)
  }


23/02/09 09:12:13 INFO cluster.YarnScheduler: Removed TaskSet 92.0, whose tasks have all completed, from pool
23/02/09 09:12:13 INFO scheduler.TaskSetManager: Finished task 15400.0 in stage 97.0 (TID 120846) in 63 ms on worker40.center.testname (executor 6) (28474/40000)
23/02/09 09:12:13 INFO scheduler.DAGScheduler: Job 20 failed: foreachPartition at DorisSourceProvider.scala:68, took 262.238821 s
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 39091 tasks (3.0 GB) is bigger than spark.driver.maxResultSize (3.0 GB)
        at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1890)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1878)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1877)
        at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
        at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
        at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1877)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:929)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:929)
        at scala.Option.foreach(Option.scala:257)
        at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:929)
        at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2111)
        at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2060)
        at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2049)
        at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)
        at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:740)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:2081)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:2102)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:2121)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:2146)
        at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1.apply(RDD.scala:935)
        at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1.apply(RDD.scala:933)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
        at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
        at org.apache.spark.rdd.RDD.foreachPartition(RDD.scala:933)
        at org.apache.doris.spark.sql.DorisSourceProvider.createRelation(DorisSourceProvider.scala:68)
        at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:45)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:70)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:68)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
        at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
        at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
        at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:80)
        at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:80)
        at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:668)
        at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:668)
        at org.apache.spark.sql.execution.SQLExecution$$anonfun$withNewExecutionId$1.apply(SQLExecution.scala:78)
        at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
        at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
        at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:668)
        at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:276)
        at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:270)
        at com.testname.common.util.DataBaseUtil$.insertIntoDorisBySpark(DataBaseUtil.scala:63)
        at com.testname.dmk.sales.cont.TableContractAnalyseBuild$.main(TableContractAnalyseBuild.scala:164)
        at com.testname.dmk.sales.cont.TableContractAnalyseBuild.main(TableContractAnalyseBuild.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
        at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:851)
        at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:167)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:195)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:926)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:935)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
23/02/09 09:12:13 INFO scheduler.TaskSetManager: Finished task 13313.0 in stage 110.0 (TID 120836) in 100 ms on worker07.center.testname (executor 4) (13718/40000)
23/02/09 09:12:13 INFO scheduler.TaskSetManager: Finished task 21.0 in stage 145.0 (TID 120859) in 55 ms on worker55.center.testname (executor 5) (127/200)
23/02/09 09:12:13 INFO scheduler.TaskSetManager: Finished task 15401.0 in stage 97.0 (TID 120853) in 65 ms on worker40.center.testname (executor 6) (28475/40000)
23/02/09 09:12:13 INFO cluster.YarnScheduler: Removed TaskSet 97.0, whose tasks have all completed, from pool
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 33566.0 in stage 97.0 (TID 120849, worker36.center.testname, executor 1): TaskKilled (Stage cancelled)
23/02/09 09:12:13 INFO cluster.YarnScheduler: Removed TaskSet 97.0, whose tasks have all completed, from pool
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 13321.0 in stage 110.0 (TID 120864, worker40.center.testname, executor 6): TaskKilled (Stage cancelled)
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 13322.0 in stage 110.0 (TID 120867, worker40.center.testname, executor 6): TaskKilled (Stage cancelled)
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 15307.0 in stage 97.0 (TID 120843, worker34.center.testname, executor 2): TaskKilled (Stage cancelled)
23/02/09 09:12:13 INFO cluster.YarnScheduler: Removed TaskSet 97.0, whose tasks have all completed, from pool
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 33567.0 in stage 97.0 (TID 120854, worker36.center.testname, executor 1): TaskKilled (Stage cancelled)
23/02/09 09:12:13 INFO cluster.YarnScheduler: Removed TaskSet 97.0, whose tasks have all completed, from pool
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 13324.0 in stage 110.0 (TID 120871, worker34.center.testname, executor 2): TaskKilled (Stage cancelled)
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 13326.0 in stage 110.0 (TID 120873, worker34.center.testname, executor 2): TaskKilled (Stage cancelled)
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 13325.0 in stage 110.0 (TID 120872, worker34.center.testname, executor 2): TaskKilled (Stage cancelled)
23/02/09 09:12:13 WARN scheduler.TaskSetManager: Lost task 13318.0 in stage 110.0 (TID 120847, worker07.center.testname, executor 4): TaskKilled (Stage cancelled)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-02-09 10:09
关注
你把报错发给我看一下

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark创建外部表时报错 spark
2017-09-22 03:23

回答 2 已采纳可能是scala驱动版本不匹配
Javaee连接数据库报spring-db.xml上dataSource错误，不明原因，求解答 eclipse java-ee mysql spring tomcat
2020-07-05 15:06

回答 1 已采纳 'dataSource' 定义时引用了一个 properties 占位符属性 ${mysql.fruitname} 无法找到对应的定义文件。说明 properties 引用路径未指定，看代码
插入的一条数据,5分钟后mysql自动删除,请教! mysql 数据库有问必答
2023-03-09 18:00

回答 10 已采纳我看你好像是要实现手机号验证码有效期的功能，这个功能一般都是通过redis或者本地缓存的有效期去实现，你这里为啥一定要用数据库呢，你这样做反而会增加数据的负担，另外也可以不用通过触发器去删除，可以在验
大数据学习指南合集（Hadoop、Spark、Flink等）
2024-03-14 10:28

大数据框架组件含Hadoop、Spark、Flink等大数据书籍一、Hadoop 1. Hadoop——分布式文件管理系统HDFS 2. Hadoop——HDFS的Shell操作 3. Hadoop——HDFS的Java API操作 4. Hadoop——分布式计算框架...
springMVC怎么可以访问.do和.jsp eclipse hibernate java java-ee spring
2019-05-06 16:30

回答 2 已采纳吧@RequestMapping注解中value中得.do去掉，再访问就行了。
com.microsoft.sqlserver.jdbc.SQLServerException: 服务器无法继续执行该事务 spring sqlserver 数据库
2022-08-22 10:17

回答 3 已采纳按照你的报错，应该还是sql插入数据的问题，字段数据长度有问题。最好把插入的sql 打印出来。你去掉事务就是可以部分sql执行成功
Hibernate hbm2ddl.auto中参数update不明白 hibernate
2011-04-08 00:45

回答 1 已采纳 Hibernate hbm2ddl.auto，这个标签是用来基于你配置好了实体间的关系，然后可以自动生成表的。软件的设计可以分两个方向，一时面向数据库的设计，而是面向流程的设计。而hibera
非常好的大数据入门目资源，分享出来.zip
2024-03-02 14:36

大数据 大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南一、Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群环境搭建 Hadoop 集群...
Dynamic Declaration Language (DDL)
2017-02-23 08:34

回答 2 已采纳 https://www.nowcoder.com/questionTerminal/c385b1c033bf4c0f93fd7dc1c4dff835
spring+Mybatis+Druid 报错ERROR {dataSource-1} init error java.lang.NullPointerException: null java spring boot 后端
2022-02-12 17:48

回答 1 已采纳循环依赖了，既然你自定义了datasource，启动类移除掉数据源的自动装配，@SpringBootApplication(exclude = DataSourceAutoConfiguration.
FlinkSQL平台化，前端化管理 flink java 大数据
2023-02-01 10:55

回答 4 已采纳题主的思路完全正确可行，因为我就是这么做的。也是一开始觉得不是很正规，但确实能解决实际的业务问题，要相信自己。梳理一下BaseJar：丢到linux服务器上，用来解析Flink SQL语句MySQ
大数据精选入门指南，包括大数据学习路线、大数据技术栈思维导图
2024-04-01 20:18

Hive 使用 DDL 操作 Hive 分区表和分区表 Hive 视图和索引 Hive 使用 DML 操作 Hive数据详细查询解三、火花火花核心：斯帕克简介 Spark开发环境搭建弹性式数据集 RDD RDD使用算子详解 Spark运行模式与作业提交 ...
关于ddl触发器，在匹配触发条件的时候总是报错，有没有大佬可以帮忙解答一下呢，求教 oracle 数据库
2017-09-03 03:00

回答 1 已采纳 if里面不能用exists，试一试这样： CREATE OR REPLACE TRIGGER DROP_DDL_TRIGGER AFTER DROP ON DIRECT.SCHEMA DECLARE
大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南
2023-08-05 07:58

大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 ...
一篇文章了解 Spark 3.x 的 Catalog 体系
2022-02-21 22:35

Shockang的博客一种是概念上的 Schema，指的是一组 DDL 语句集，该语句集完整地描述了数据库的结构。还有一种是物理上的 Schema，指的是数据库中的一个名字空间，它包含一组表、视图和存储过程等命名对象。物理 Schema 可以通过...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月9日

悬赏问题

¥15 关于#.net#的问题：End Function
¥50 用AT89C52单片机设计一个温度测量与控制电路
¥15 无法import pycausal
¥15 VS2022创建MVC framework提示：预安装的程序包具有对缺少的注册表值的引用
¥15 weditor无法连接模拟器Local server not started, start with？
¥20 6-3 String类定义
¥15 嵌入式--定时器使用
¥20 51单片机学习中的问题
¥30 Windows Server 2016利用兩張網卡處理兩個不同網絡
¥15 Python中knn问题

spark DDL union后插入Doris报spark.driver.maxResultSize

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新