Flink1.17的webUI显示kafkaSource的Records Sent会翻倍

！Flink1.17的webUI显示kafkaSource的Records Sent会翻倍

我确定我的Kafka里只有40条数据，但是webUi中显示Records Sent 80,求解为什么？
这是我flink消费kafka的代码

package com.xiaziyang.source;

import com.alibaba.fastjson.JSONObject;
import com.xiaziyang.deserializer.MyKafkaDeserializationSchema;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.common.serialization.TypeInformationSerializationSchema;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.connector.kafka.source.reader.deserializer.KafkaRecordDeserializationSchema;
import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.node.ObjectNode;
import org.apache.flink.streaming.api.datastream.DataStreamSink;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.KafkaDeserializationSchema;
import org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema;
import org.apache.flink.types.Row;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import java.io.IOException;
import java.lang.reflect.Type;
public class MyKafkaSource {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createRemoteEnvironment("hadoop103", 8081,"C:\\JavaStudy\\flink-1.17\\target\\original-flink-1.17-1.0-SNAPSHOT.jar");
        KafkaSource<ConsumerRecord<String, String>> kafkaSource = KafkaSource.<ConsumerRecord<String, String>>builder().setBootstrapServers("hadoop102:9092")
                .setTopics("flink_1")
                .setGroupId("xiaziyang1")
                .setStartingOffsets(OffsetsInitializer.latest())
                .setDeserializer(KafkaRecordDeserializationSchema.of(new MyKafkaDeserializationSchema()))
                .build();
        SingleOutputStreamOperator<ConsumerRecord<String, String>> source = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(),"kafkaSource")
                .name("kafkaSource").setParallelism(1);
        SingleOutputStreamOperator<String> map = source.map(new MapFunction<ConsumerRecord<String, String>, String>() {
            @Override
            public String map(ConsumerRecord<String, String> value) throws Exception {
                return value.value().toString();
            }
        }).name("value").setParallelism(2);
        DataStreamSink<String> sink = map.print().name("print").setParallelism(1);
        env.execute();
    }
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-03-18 01:21
关注
Members only 上午好☀️☀️☀️️
本答案参考ChatGPT-3.5

根据你提供的代码，我发现你的问题可能出现在以下几个方面：

Kafka中的数据重复发送：你提到只有40条数据，但是Web UI显示的Records Sent为80条。这可能是因为数据在Kafka中被重复发送了。你可以通过查看Kafka的消息偏移量来确定是否有重复的消息被发送。如果有重复数据，你可以考虑针对消费者的消费逻辑进行优化，例如使用幂等消费或者记录已消费的消息的偏移量等方式来避免重复消费。

任务并行度设置不合理：在代码中，你设置了两个算子的并行度分别为1和2。这可能导致数据在流水线中的处理过程中出现数据倾斜的情况，从而导致一部分数据被处理得更快，另一部分数据被处理得更慢。你可以尝试调整算子的并行度以达到更均衡的数据处理效果。

Watermark的设置：你使用了WatermarkStrategy.noWatermarks()来设置没有水印策略。这可能导致Flink无法及时推进事件时间，并在数据处理中引入一定的延迟。你可以根据实际情况选择合适的水印生成策略，以确保事件时间的推进和数据的准确处理。

解决方案：

在消费Kafka数据时，可以通过记录已消费的消息的偏移量来避免重复消费。
调整算子的并行度，使数据得到更均衡的处理。
选择合适的水印生成策略，以确保事件时间的推进和数据的准确处理。

修改后的代码示例：

public class MyKafkaSource { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.createRemoteEnvironment("hadoop103", 8081,"C:\\JavaStudy\\flink-1.17\\target\\original-flink-1.17-1.0-SNAPSHOT.jar"); env.setParallelism(2); // 设置全局并行度为2 KafkaSource<ConsumerRecord<String, String>> kafkaSource = KafkaSource.<ConsumerRecord<String, String>>builder().setBootstrapServers("hadoop102:9092") .setTopics("flink_1") .setGroupId("xiaziyang1") .setStartingOffsets(OffsetsInitializer.latest()) .setDeserializer(KafkaRecordDeserializationSchema.of(new MyKafkaDeserializationSchema())) .build(); SingleOutputStreamOperator<ConsumerRecord<String, String>> source = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(),"kafkaSource") .name("kafkaSource"); SingleOutputStreamOperator<String> map = source.map(new MapFunction<ConsumerRecord<String, String>, String>() { @Override public String map(ConsumerRecord<String, String> value) throws Exception { return value.value().toString(); } }).name("value"); DataStreamSink<String> sink = map.print().name("print"); env.execute(); } }

在这个修改后的代码中，我将算子的并行度设置为2，并移除了对算子并行度的手动设置。另外，我也移除了setParallelism的设置，因为并行度已经在上面进行了全局设置。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Flink1.17中Kafka sink和source的方法
2024-06-14 17:30

绝顶喵喵拳的博客我用的版本是Flink1.17.1，Java用的是1.8。
hudi-flink1.17-bundle-0.14.0-sources.jar
2023-12-22 10:17

这是Flink1.17、hudi 0.14 、hadoop 3.3.4、hive 3.1.3、Spark 3.2.3 编译出来的版本
Apache Flink 1.17 完整版资料包，含最新JDBC、Hive、Kafka连接器，加速数据驱动决策
2024-08-09 11:16

还汇集了多款热门连接器，如flink-connector-jdbc-1.17针对数据库的高效集成，flink-sql-connector-hive-3.1.3_2.12-1.17.0与Hive的无缝对接，flink-sql-connector-kafka-1.17.0实现Kafka数据流的高效处理，以及...
flink1.17部署模式和部署方法
2023-10-10 15:29

Xd聊架构的博客 Apache Flink是一个框架和分布式处理引擎，用于对无边界和有边界的数据流进行有状态的计算。Flink被设计为可以在所有常见集群环境中运行，并能以内存速度和任意规模执行计算。目前市场上主流的流式计算框架有Apache ...
尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】
2023-06-19 15:22

upward337的博客尚硅谷大数据Flink1.17实战教程-笔记02【部署】
Flink使用 KafkaSource消费 Kafka中的数据
2023-03-21 21:22

Daphnis_z的博客很多 flink相关的书籍和网上的文章讲解如何对接 kafka时都是使用的 FlinkKafkaConsume，'org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer' is deprecated ，新版 flink应该使用 KafkaSource来对接 ...
深入解读 Flink 1.17
2023-05-24 20:01

Apache Flink的博客摘要：本文整理自阿里云技术专家，Apache Flink PMC Member & Committer、Flink CDC Maintainer 徐榜江(雪尽) 在深入解读 Flink 1.17 Meetup 的分享。
大数据——Flink的KafkaSource和自定义Source
2021-08-25 20:30

Vicky_Tang的博客一、KafkaSource 在流式处理过程中，Kafka 和 Flink 的整合是许多公司所使用的架构。而 Flink 和 Kafka 的整合也非常友好，代码非常简单，实际开发中使用较多 package cn.kgc.source import java.util....
flink实战--flink整合kafka (kafka source 与 kafka sink)
2018-12-26 22:06

阿华田512的博客 Flink提供的Kafka连接器，用于向Kafka主题读取或写入数据。Flink Kafka Consumer集成了Flink的检查点机制，可提供一次性处理语义。为实现这一目标，Flink并不完全依赖kafka的消费者群体偏移跟踪，而是在内部跟踪和...
Flink1.17实战教程（第一篇：概念、部署、架构）
2023-11-29 14:23

阿moments的博客 Flink官网Flimk核心目标，是“数据流上的有状态计算具体说明：Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。（1）无界流数据有定义流的开始，但没有定义流的结束；它们会无休止...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月18日

Flink1.17的webUI显示kafkaSource的Records Sent会翻倍

4条回答 默认 最新

问题事件

4条回答默认最新