flink批处理shuffle后的并行度

图1：

图2：

为什么flink在idea测试默认并行度为1的情况shuffle，sum之后的并行度为max(默认并行度,job中算子最大并行度)，如图1打印出3行数据，但是在linux的环境中测试并行度就变成了环境默认并行度了呢？如图2，只打印出一行数据

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-16 15:57
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

您想要解决的问题

您想要解决的问题是关于Flink批处理作业中shuffle操作后并行度的行为差异。具体来说，您在IDEA环境中测试时发现，即使默认并行度设置为1，经过shuffle和sum操作后，实际并行度会变为默认并行度与作业中算子最大并行度中的最大值，导致打印出多行数据。然而，在Linux环境中测试时，发现并行度遵循环境默认值，只打印出一行数据。

图片内容

图1：展示了在IDEA环境中运行Flink批处理作业的代码和输出结果。代码中创建了一个Flink批处理执行环境，并进行了数据的映射和聚合操作。输出结果显示了多个聚合结果，这表明并行度被设置为了一个大于1的值。
图2：展示了在REPL（可能是Scala的交互式解释器）环境中运行相似操作的代码和输出结果。这里的输出只显示了一个聚合结果，表明并行度为1。

问题出现原因

问题可能出现的原因是在不同环境中Flink作业的默认并行度设置不同，或者是作业的并行度在不同环境中被以不同的方式处理。在IDEA中，可能存在一些配置或者缓存导致并行度被重置或覆盖。而在Linux环境中，可能是使用了不同的Flink配置或者系统属性，导致并行度保持为默认值。

问题解决方案

为了确保在不同环境中并行度的行为一致，您需要检查和统一Flink作业的并行度设置。这可以通过以下几种方式实现：

明确设置并行度：在作业的每个关键操作后都明确设置并行度，确保它不会被默认值覆盖。
检查环境配置：确保IDEA和Linux环境的Flink配置一致，包括并行度和其他可能影响并行执行的设置。
使用环境变量：通过设置环境变量来控制Flink作业的默认并行度，这样可以在不同环境中保持一致。

提供代码

以下是修改后的代码示例，它在每个关键操作后都明确设置了并行度：

import org.apache.flink.api.scala._ import org.apache.flink.api.common.functions.RichMapFunction import org.apache.flink.util.Collector object Demo01 { def main(args: Array[String]): Unit = { val env = ExecutionEnvironment.getExecutionEnvironment env.setParallelism(1) // 设置初始并行度 val data = env.fromCollection(List(1, 2, 3, 4, 5)) .map(_ + 1).setParallelism(3) // 在map操作后设置并行度 .groupBy(0) // 假设数据是元组，按第一个字段分组 .sum(1) // 对第二个字段求和 .setParallelism(2) // 在聚合操作后设置并行度 data.mapPartition(x => println(x.mkString(","))) // 打印每个分区的数据 .print() // 打印操作 env.execute("Flink Batch Job") } }

代码运行方式

确保您的环境中安装了Flink，并且flink-submit命令可用。
将上述代码保存为.scala文件，例如Demo01.scala。
使用Flink的命令行工具提交作业：

flink run -c com.example.Demo01 Demo01.scala

代码预期运行结果

如果并行度设置正确，您应该看到类似以下的输出，每个聚合结果只打印一次：

(2,1) (5,3)

推荐相关链接

Flink官方文档
Flink并行度和任务槽
Flink环境配置

这些链接可以帮助您更深入地了解Flink的并行度设置和作业配置。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Flink 批处理自适应执行计划优化
2025-03-27 20:01

Apache Flink的博客 JobMaster 会根据节点并行度、数据传输方式等信息对 JobGraph 进行分布式展开，生成物理执行计划，即 ExecutionGraph。可以看到从逻辑执行计划到物理执行计划生成的过程中，算子层面对外暴露的信息是逐步减少的。...
10.大数据技术之Flink
2022-07-17 08:31

数据带你飞的博客这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。Spark掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark...
更快更稳更易用: Flink 自适应批处理能力演进
2022-11-05 08:37

浪尖聊大数据-浪尖的博客虽然 Flink 在框架层面天然支持批处理，但在实际生产使用中依然存在问题。因此在近几个版本中，社区也一直在持续改进 Flink 批处理问题，这些改进体现在 API、执行与运维三个层面。在 API 层面，我们一直在改进 SQL...
剑指大数据-Flink学习精要（Java版）
2024-03-18 22:50

此外，Flink还支持动态调整并行度，以应对数据量变化。九、实战案例本教程中，将通过Java代码示例和实际业务场景，详细讲解如何使用Flink解决大数据处理问题，例如实时日志分析、复杂事件处理等。总之，《剑指...
Flink (三)：核心概念（并行度、算子链、任务槽）
2025-01-11 11:00

LevenBigData的博客本文主要讲述了flink中并行度和slot 两个概念，并阐述了两者之间的关系。同时讲述了并行度的几种设置方法。
大数据：Flink项目概述
2022-12-05 17:51

夏献霸的博客 2019 年 1 年，阿里巴巴收购了 Flink 的母公司 Data Artisans，并宣布开源内部的 Blink，Blink 是阿里巴巴基于 Flink 优化后的版本，增加了大量的新功能，并在性能和稳定性上进行了各种优化，经历过阿里内部多种复杂...
大数据系列——Flink理论
2023-05-09 20:18

mql007007的博客 Flink是一个对有界和无界数据流进行有状态计算的分布式处理引擎和框架，既可以处理有界的批量数据集，也可以处理无界的实时流数据，为批处理和流处理提供了统一编程模型，其代码主要由 Java 实现，部分代码由 Scala...
大数据最佳实践-flink
2021-04-22 10:49

猿与禅的博客当您处理有限的数据流时，批处理是工作的范例。在这种操作模式下，您可以选择在产生任何结果之前先摄取整个数据集，这意味着，例如，可以对数据进行排序，计算全局统计数据或产生总结所有输入的最终报告。另一方面...
【大数据面试】Flink面试题附答案
2023-12-19 10:29

话数Science的博客 Flink面试题附答案 Flink架构 Flink的窗口了解哪些，都有什么区别，有哪几种?如何定义? Flink窗口函数，时间语义相关的问题介绍下Flink的watermark(水位线)，watermark需要实现哪个实现类，在何处定义?有什么作用 ...
【Flink 面试指南】Flink 详解（一）：基础篇（架构、并行度、算子）
2023-08-06 22:28

大数据与AI实验室的博客 Flink 是一个以流为核心的高可用、高性能的分布式计算引擎。具备流批一体，高吞吐、低延迟，容错能力，大规模复杂计算等特点，在数据流上提供数据分发、通信等功能。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月16日

flink批处理shuffle后的并行度

2条回答 默认 最新

您想要解决的问题

图片内容

问题出现原因

问题解决方案

提供代码

代码运行方式

代码预期运行结果

推荐相关链接

问题事件

2条回答默认最新