flink并行度问题

请问下面的这段代码在.keyBy(1)和.keyBy(0)时为啥在输出结果的并行度上很大的差异(这段代码没有太多的实际意义，只是对输出有疑惑)

private static void countWindowTest1() throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(3);
        DataStreamSource<String> lines = env.socketTextStream("localhost", 8888);

        lines
                .flatMap(new FlatMapFunction<String, Tuple3<Integer, String, Integer>>() {
                    public void flatMap(String line, Collector<Tuple3<Integer, String, Integer>> collector) throws Exception {
                        String[] words = line.split(" ");
                        for (String word : words) {
                            Tuple3<Integer, String, Integer> tp = Tuple3.of(Math.abs(word.hashCode() % parallelism), word, 1);
                            collector.collect(tp);
                        }
                    }
                })
                .keyBy(1)
                .countWindow(3)
                .sum(2)
                .print();

        env.execute();
    }

输入同样都是下面的两段话

Fight and you may die, run and you'll live. At least a while. And dying in your beds many years from now, would you be willing to trade all the days from this day to that for one chance, just one chance to come back here and tell our enemies that they may take our lives, but they'll never take our freedom!
Fight and you may die, run and you'll live. At least a while. And dying in your beds many years from now, would you be willing to trade all the days from this day to that for one chance, just one chance to come back here and tell our enemies that they may take our lives, but they'll never take our freedom!

当.keyBy(1)时

当.keyBy(0)时

为什么第一个输出看起来更符合并行度是3的设置，而第二个输出结果看起来都使用了同一个work呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一轮明月照丘壑 2024-09-15 16:46
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

这段代码的核心是使用Apache Flink流处理框架来对数据进行处理。代码的关键在于通过.keyBy(i)进行状态化管理。这里是几个重要的概念和可能的解释：

并行度（Parallelism）

在Flink中，并行度决定了处理数据的任务数量。当你设置env.setParallelism(3)时，意味着整个作业将使用三个并行任务来处理数据。然而，并行度并不是绝对的，它可能根据数据和任务的特性进行动态调整。在某些情况下，如果数据分布不均或者某些操作更适合并行处理，可能会存在更小的子任务或多个并发操作，但在您设定并行度的地方应该有尽可能多的资源来分配给这个数目的大致分配或完全平衡的处理能力。实际的情况还会根据数据倾斜和其他因素有所不同。因此，您看到的输出可能与预期有所不同。

.keyBy(i)的影响

.keyBy(i)决定了如何对数据进行分区和状态管理。在这里，如果参数是0或1，则数据将根据单词的哈希值（取模并行度）进行分区。这意味着相同的单词将被发送到同一个并行任务中处理。因此，如果所有单词都是相同的或者存在大量重复单词，可能会导致某些任务比其他任务更忙，这可能会导致数据分布不均的情况出现。因此，在输出中可能会看到不同数量的条目和不同的处理结果。这是因为每个并行任务可能处理不同的单词集合，并且由于数据倾斜，某些任务可能处理更多的数据。因此，尽管设置了并行度，但由于数据分布不均或其他因素，您看到的输出可能看起来不像预期的那样均匀分布。另外，您提到的图中的一些内容似乎不是典型的Flink输出格式，可能是其他因素导致的输出格式问题或数据混淆的问题。如果您能提供更多的上下文或详细说明这些输出的来源和含义，我可能能提供更具体的解释。总之，在处理大数据流时，数据的分布和倾斜对结果有很大影响。确保合理地使用.keyBy()和其他操作以优化数据处理和数据分布是关键。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Flink 并行度的设置
2025-05-18 19:27

maozexijr的博客层级用途是否推荐使用控制单个算子并行度✅✅✅ 强烈推荐用于关键路径优化设置默认并行度✅✅ 推荐作为基础配置动态设置并行度✅ 适合多环境部署全局兜底配置⚠️ 推荐配合其他方式使用。
FLINK 并行度配置
2025-02-06 17:28

ada2014的博客 并行度配置的几个层次如下所示。从上到下作用范围依次增大，但是上面的配置可以覆盖下面的配置。并行度一般配置为CPU核心数的2-3倍。
Flink并行度
2024-03-08 22:58

201001070的博客一个Flink集群中有一个计算金额的Job1、还有一个计算数量的Job2、同一时集群中可以同时运行Job1和Job2、所以任务并行度就是2。flink中每个算子就是一个Task，比如flatMap、map、sum是一个Task。总结：Flink中，每一...
Flink并行度与分区机制深度解析
2025-05-18 11:55

Ray.1998的博客（以下两步为flink框架内部处理过程演示）注：表中哈希值为模拟演示用，非真实计算结果。3.1 自定义Partitioner。自定义Partitioner。是否需要动态调整分区规则?• 需要精确控制分区映射。• 需要动态调整分区规则。...
【flink番外篇】11、Flink 并行度设置
2024-01-10 14:15

一瓢一瓢的饮 alanchanchn的博客 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和...
Flink -- 并行度
2023-11-05 22:51

新手小农的博客 TaskManager在Flink集群中...对于一个Flink任务是有Source、Transformation和Sink等任务组成，一个任务由多个并行实例来执行，一个任务的并行实例数目被称为该任务的并行度。3、可以对每一个算子都单独的设置并行度。
【Flink】并行度的设置
2025-08-31 17:05

EmoGP的博客【Flink】并行度的设置
Flink 并行度的理解(parallel)
2022-02-20 10:47

sf_www的博客讲解flink的并行度的理解
Flink运行架构及并行度设置
2025-05-21 14:42

北漂老男人的博客 Slot与并行度匹配：并行度≤总Slot数，合理分布提升性能。源码可溯源：关键分配逻辑可通过源码追踪理解。口诀速记架构：Job管调度，Task管执行，Slot管资源，SubTask落其上。流程：客户端提交，JobManager调度，...
flink05 并行度与事件时间
2024-05-30 23:05

嘟嘟du噜的博客 1、在代码中设置:env.setParallelism(并行度数量) （优先级高，会将代码并行度定死）3、在配置文件中统一设置4、每一个算子可以单独设置并行度。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月13日

flink并行度问题

1条回答 默认 最新

并行度（Parallelism）

.keyBy(i)的影响

问题事件

1条回答默认最新

`.keyBy(i)`的影响