spark.cleaner.periodicGC.interval设置不当导致频繁GC

在Spark应用中，`spark.cleaner.periodicGC.interval` 设置过小（如默认1min）会导致内存清理过于频繁，触发周期性垃圾回收（GC）。尤其在流式计算或迭代算法场景下，RDD和Shuffle数据未及时释放，Cleaner不断触发Full GC，造成CPU占用升高、任务停顿时间增加，严重影响执行效率。合理设置该参数（如30s~1min根据负载调整），并配合 `spark.cleaner.referenceTracking` 优化，可显著减少GC频次，提升作业稳定性与性能。不当配置可能引发“GC风暴”，导致Executor响应延迟甚至失联。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

薄荷白开水 2025-11-30 14:42

关注

1. Spark Cleaner机制初探：从基础概念谈起

在Apache Spark中，spark.cleaner.periodicGC.interval 是一个控制内存清理频率的重要参数。默认值为60秒（1分钟），表示每间隔指定时间触发一次周期性垃圾回收（GC）。该机制由ContextCleaner组件驱动，用于清理已不再使用的RDD、广播变量、累加器和Shuffle数据元信息。

当该参数设置过小（如30秒甚至更低），会频繁调用JVM的System.gc()，尤其是在流式处理（Structured Streaming）或迭代计算（如ALS、PageRank）场景下，大量中间数据尚未完成消费就被标记为可清理，导致不必要的Full GC频繁发生。

默认行为：每60秒执行一次GC
常见误配置：设置为10s~30s以“提升性能”
实际后果：引发GC风暴，CPU占用飙升

2. 深入GC风暴的成因与影响路径

在高并发任务或长时间运行的流作业中，RDD lineage链较长，Shuffle文件依赖复杂。若spark.cleaner.referenceTracking开启（默认true），Spark通过弱引用跟踪资源生命周期；但一旦清理周期太短，Reference Queue积压无法及时处理，将堆积待清理对象。

此时，周期性GC不断被触发，JVM进入“Stop-The-World”状态，所有Executor线程暂停，表现为：

现象	技术表现	监控指标变化
任务延迟	Task processing time骤增	executor run duration > 5s
CPU占用高	GC线程占用超70%	system CPU usage > 80%
Executor失联	Heartbeat timeout	driver日志出现REMOVED消息
Shuffle失败	FetchFailedException	reducer端拉取数据超时

3. 配置优化策略与参数调优建议

为了避免上述问题，应根据集群负载合理调整清理间隔。以下为推荐配置方案：


# 生产环境推荐配置
spark.cleaner.periodicGC.interval    30s      # 流式作业可设为45s~60s
spark.cleaner.referenceTracking     true     # 启用引用追踪
spark.cleaner.referenceTracking.blocking  false  # 非阻塞模式避免卡顿
spark.memory.fraction               0.6
spark.memory.storageFraction        0.5

对于迭代算法场景，建议进一步结合checkpoint机制手动管理Lineage长度，减少Cleaner压力。

4. 监控与诊断工具链构建

要识别是否因Cleaner导致GC异常，需建立完整的可观测体系。可通过如下方式定位问题：

启用GC日志：-XX:+PrintGC -XX:+PrintGCDetails
使用Grafana+Prometheus监控Young Gen/Full GC频次
分析Driver端ContextCleaner日志输出
通过Spark UI查看Stage间的空闲时间分布
利用jstat实时观察GC停顿时间
检查YARN Container的日志中是否有OOM或Kill记录

5. 架构级优化：从资源配置到应用设计

除了参数调优，还需从架构层面规避Cleaner带来的副作用。例如，在Structured Streaming中采用watermark控制状态保留时间，配合stateStoreProvider实现高效状态管理，降低对RDD Cleaner的依赖。

以下是典型流式作业的Cleaner相关配置组合：

参数名	低负载建议值	高吞吐建议值
spark.cleaner.periodicGC.interval	30s	60s
spark.cleaner.referenceTracking	true	true
spark.streaming.stopGracefullyOnShutdown	true	true
spark.sql.streaming.stateStore.providerClass	Memory	RocksDB

6. 可视化流程：Cleaner与GC交互机制图解

下图为ContextCleaner与JVM GC之间的协作流程：

graph TD
    A[Task Completion] --> B{RDD/Shuffle 是否废弃?}
    B -- 是 --> C[加入ReferenceQueue]
    C --> D[ContextCleaner 检测到待清理对象]
    D --> E[触发 System.gc()]
    E --> F[JVM 执行 Full GC]
    F --> G[对象真正回收]
    D -- 定时触发 --> H[spark.cleaner.periodicGC.interval]
    H --> E
    style E fill:#f9f,stroke:#333

图中可见，periodicGC.interval直接驱动GC调用频率，若设置不当则形成闭环高频触发。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Spark Cleaner 清理器
2019-04-30 14:25

这不是一个好昵称的博客 Spark Cleaner 清理器功能概述Cleaner的创建清理逻辑RDD的清理Shuffle的清理Broadcast的清理Accum的清理Checkpoint的清理参考功能概述这里使用的是一个弱引用（WeakReference）队列，主要用于对RDD，shuffle和广播...
Spark 内存管理 spark.executor.memory /spark.memory.fraction/spark.memory.offHeap.size【堆外内存/内存管理】钨丝计划
2020-12-26 13:51

二十六画生的博客的博客 spark.executor.memory 包含spark.memory.fraction； spark.memory.fraction 包含 spark.memory.storageFraction； spark 2.4.5 Application Properties Property Name Default Meaning spark.app.name ...
Spark1.x VS Spark2.x
2023-04-22 22:05

Light Gao的博客 [性能测试]Spark1.x-2.xBenchmark
spark参数总结
2021-12-01 16:47

灵佑666的博客 0.Spark Driver SparkSession.builder() .enableHiveSupport() //.appName("pipeline") .config("spark.warehouse.dir", new File("spark-warehouse").getPath) //.config("spark.shuffle.service.enabled", ...
Spark2.3.2源码解析： 5. SparkConf源码分析
2018-12-11 16:43

张伯毅的博客在执行代码的时候，首先要声明：SparkConf，本文以SparkConf进行分析，逐步展开。...类中的方法（org.apache.spark.SparkConf） Modifier and Type Method and Description SparkConf clone()...
Spark 参数设置
2019-05-20 19:34

余生与猫的博客 Spark系统的性能调优是一个很复杂的过程，需要对Spark以及Hadoop有足够的知识储备。从业务应用平台（Spark）、存储（HDFS）、操作系统、硬件等多个层面都会对性能产生很大的影响。借助于多种性能监控工具，我们可以...
spark 参数调优6-Memory Management内存管理
2018-08-31 14:45

Deegue的博客 spark参数调优系列目录地址： ... ⑥ Memory Management spark.memory.fraction ...执行内存和缓存内存（堆）占jvm总内存的比例，剩余的部分是spark留给用户存储内部源数据、数据结构...默认值0.6，调小会导致频繁...
Spark-SparkContext类解析
2024-07-15 18:02

Neil-Wick的博客 SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎，SparkContext 初始化完毕，才能向 Spark 集群提交应用程序，而 SparkContext 的配置参数则由 ...
19 Spark on 动态加载属性
2022-01-11 09:54

lucklilili的博客 Spark provides three locations to configure the system: Spark propertiescontrol most application parameters and can be set by using aSparkConfobject, or through Java system properties. Environment ...
spark配置参数详解
2018-04-14 10:35

weixin_33716154的博客 Spark配置参数说明 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置 ...Spark属性控制大部分的应用程序设置，并且为每个应用程序分...
spark调优
2019-06-10 15:50

purisuit_knowledge的博客转载自：... spark.driver.extraJavaOptions -XX:PermSize=128M -XX:MaxPermSize=256M cluster模式： spark.driver.extraJavaOptions -XX:PermSize=1024M -XX:MaxPerm...
spark参数设置
2019-07-18 11:53

唐-coffee的博客总结 Spark系统的性能调优是一个很复杂的过程，需要对Spark以及Hadoop有足够的知识储备。从业务应用平台（Spark）、存储（HDFS）、操作系统、硬件等多个层面都会对性能产生很大的影响。借助于多种性能监控工具，...
Spark配置参数详解
2018-12-18 16:41

张伯毅的博客 Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置 ...
关于spark配置参数
2020-10-19 15:38

okbin1991的博客 Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置，例如IP地址、端口等信息日志配置：可以通过log4j.properties配置 Spark...
spark参数说明
2020-03-04 14:45

liuwei063608的博客 spark.driver.maxResultSize 1g 对Spark每个action结果集大小的限制.。 spark.driver.memoryOverhead driverMemory * 0.10, with minimum of 384 为driver分配的堆外内存。支持on yarn和Kubernetes。 spark....
Spark性能调优系列：Spark参数配置大全（官网资料）
2019-12-18 18:56

Mr Cao的博客通过conf/spark-env.sh每个节点上的脚本，环境变量可用于设置每台计算机的设置，例如IP地址。可以通过配置日志log4j.properties。 Spark属性 Spark属性控制大多数应用程序设置，并分别为每个应用...
关于Spark 的一些调优选项（待完善）
2015-08-28 14:54

weixin_34357928的博客 //由Spark自行管理持久化RDD，Spark自行判断哪些RDD是不常持有的，然后去序列化他们，可以减GC的次数，而且降低Spark对内存的使用， spark.streaming.unpersist=true //如果该参数没有...
Spark Standalone 集群配置
2024-02-07 16:35

董可伦的博客 db spark.history.fs.cleaner.enabled true spark.history.fs.cleaner.interval 7d spark.history.fs.cleaner.maxAge 90d #spark.history.ui.acls.enable false #spark.history.ui.admin.acls yarn,spark,hdfs,hbase...
Spark Standalone spark-default.conf
2019-09-24 20:52

anghiking20140716的博客 spark.master spark://master:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode:8021/directory spark.serializer org.apache.spark.serializer.KryoSerializer spark.driver.me...
Spark1.0.x入门指南
2019-09-19 09:44

chuanjiaoye5017的博客 Spark1.0.x入门指南 1 节点说明 IP Role 192.168.1.111 ActiveNameNode 192.168.1.112 StandbyNameNo...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月30日