Flink Sum计算


package org.example.tmp;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.operators.Order;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.*;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;


public class WordCount1 {
    public static void main(String[] args) throws Exception {
        ExecutionEnvironment executionEnvironment = ExecutionEnvironment.getExecutionEnvironment();
//        DataSource<String> stringDataSource = executionEnvironment.fromElements("it hadoop spark flink", "it hadoop spark", "it hadoop", "it");
        DataSet<String> ds= executionEnvironment.fromElements("it hadoop spark flink", "it hadoop spark", "it hadoop", "it");
        FlatMapOperator<String, String> flatMapOperator = ds.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> out) throws Exception {
                String[] split = value.split(" ");
                for (String s : split) {
                    out.collect(s);
                }
            }
        });
        MapOperator<String, Tuple2<String, Integer>> mapOperator = flatMapOperator.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> map(String value) throws Exception {
                return Tuple2.of(value, 1);
            }
        });
        UnsortedGrouping<Tuple2<String, Integer>> groupBy = mapOperator.groupBy(0);
        AggregateOperator<Tuple2<String, Integer>> sum = groupBy.sum(1);
        SortPartitionOperator<Tuple2<String, Integer>> sort = sum.sortPartition(1, Order.DESCENDING).setParallelism(1);
        sort.print();
        //5.触发执行-execute//如果有print,DataSet不需要调用execute,DataStream需要调用execute
//        executionEnvironment.execute();
    }
}

输出结果为:

package org.example.tmp;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.operators.Order;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.util.Collector;

public class WordCount2 {
    public static void main(String[] args) throws Exception  {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        DataStream<String> dataStream = env.fromElements("it hadoop spark flink", "it hadoop spark", "it hadoop", "it");
        DataStream<String> flatMap = dataStream.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> out) throws Exception {
                for (String s : value.split(" ")) {
                    out.collect(s);
                }
            }
        });
        DataStream<Tuple2<String, Integer>> mapDataStream = flatMap.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> map(String s) throws Exception {
                return  Tuple2.of(s, 1);
            }
        });
        KeyedStream<Tuple2<String, Integer>, Tuple> keyBy = mapDataStream.keyBy(0);
        DataStream<Tuple2<String, Integer>> sum = keyBy.sum(1).setParallelism(1);
        sum.print();
        env.execute();
    }
}

输出结果为:

问题:为什么下面datastream的形式去写flink的代码,执行sum统计的时候,当我的词的数据量为1的时候,结果没有统计到?

原:

 DataStream<String> dataStream = env.fromElements("it hadoop spark flink", "it hadoop spark", "it hadoop", "it");

改为:

 DataStream<String> dataStream = env.fromElements("it hadoop spark flink", "it hadoop spark", "it hadoop", "it","flink","test");

这样改的话,test也不会输出来.

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-09-09 12:33

关注

【以下回答由 GPT 生成】

首先，我注意到您的代码中存在一些不必要的步骤和冗余操作，例如flatMap和map函数可以合并为一个操作，并且可以直接调用sum函数进行求和。此外，您在排序操作中设置了并行度为1，这可能会影响性能。下面是优化后的代码：

package org.example.tmp;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

public class WordCount1 {
    public static void main(String[] args) throws Exception {
        ExecutionEnvironment executionEnvironment = ExecutionEnvironment.getExecutionEnvironment();
        DataSet<String> ds = executionEnvironment.fromElements("it hadoop spark flink", "it hadoop spark", "it hadoop", "it");

        DataSet<Tuple2<String, Integer>> result = ds
                .flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
                    @Override
                    public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
                        String[] split = value.split(" ");
                        for (String s : split) {
                            out.collect(Tuple2.of(s, 1));
                        }
                    }
                })
                .groupBy(new KeySelector<Tuple2<String, Integer>, String>() {
                    @Override
                    public String getKey(Tuple2<String, Integer> value) throws Exception {
                        return value.f0;
                    }
                })
                .sum(1);

        result.print();
    }
}

在新的代码中，我们首先将flatMap和map函数合并为一个操作，使用Tuple2.of函数创建Tuple2类型的数据。然后使用groupBy函数按照单词进行分组，最后直接调用sum函数进行求和。

这样的优化能够减少不必要的步骤和操作，提高代码的执行效率。希望对您有所帮助！

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

报告相同问题？

关注问题

Java中的Flink编程
2024-07-17 13:10

城南|阿洋-计算机从小白到大神的博客而Apache Flink作为一种新兴的分布式流处理引擎，以其强大的实时数据处理能力和灵活的编程模型，迅速在Java开发者社区中崭露头角。Apache Flink是一个用于处理数据流和批处理数据的开源框架。它最初是由德国柏林的...
flink-1.14.4 安装包 scala 2.12
2022-04-03 00:37

Scala 是一种多范式编程语言，它将面向对象编程和函数式编程的优点结合在一起，为开发人员提供了强大的抽象能力和表达力。在 Flink 中，Scala API 提供了丰富的数据类型和高级函数，使得编写流处理作业更加简洁和...
Flink开发语言使用Java还是Scala合适？
2024-08-04 19:30

喵丶派对的博客综上所述，Java和Scala都可以用来进行Flink开发。对于Scala开发者来说，学习Flink的开发同样相对容易，因为Flink的API也支持Scala。总之，Java和Scala都可以用于Flink开发，具体选择应根据团队和个人的技术背景、...
flink大数据处理流式计算详解
2023-03-06 10:28

一路向北⁢的博客 flink大数据处理，流式计算，实时数仓
Flink流式计算从入门到实战三
2021-10-08 10:44

roykingw的博客文章目录四、Flink DataStream API1、Flink程序的基础运行模型2、Environment 运行环境3、Source3.1 基于File的数据源3.2 基于Socket的数据源3.3 基于集合的数据源3.4 从Kafka读取数据3.5 自定义Source4、Sink4.1 ...
Flink流式计算从入门到实战四
2021-10-08 10:47

roykingw的博客 Table3.3 将Table重新转换为DataStream4、扩展编程框架4.1 临时表与永久表4.2 AppendStream和RetractStream4.3 内置函数与自定义函数4.4 基于Connector进行数据流转4.5 Flink Table API&SQL的时间语
Flink编程模型
2019-04-24 20:27

雾幻的博客 4.1 抽象的层级有状态的数据流处理层。最底层的抽象仅仅提供有...同时用户可以注册事件时间和处理时间的回调处理，以实现复杂的计算逻辑。核心API层，DataSet 处理有界的数据集，DataStream 处理有界或者无界的...
Flink SQL编程
2021-03-10 23:41

大数据面壁者的博客 Flink SQL编程目录Flink SQL编程一、Flink SQL核心概念1.1 动态表和连续查询1.2 在流上定义表(动态表)二、Flink Table API2.1 导入需要的依赖2.2 基本使用:表与DataStream的混合使用2.3 基本使用:聚合操作2.4 表到...
Flink 开发语言选择 —— Java vs Scala
2024-08-03 14:16

不知名靓仔的博客 Flink 支持多种编程语言，包括 Java 和 Scala。这两种语言都有其独特的特性和优势，因此，在选择开发语言时需要考虑多个方面，如性能、社区支持、开发效率等。
Flink 编程基础：Scala 版 DataStream API 入门
2025-04-12 21:47

搞程序的心海的博客流处理技术在大数据时代正...本文将以 Scala 语言为例，详细讲解 Flink DataStream API 的基本编程模型，从数据源、数据转换、数据输出，到窗口划分与时间概念，最后结合经典的 WordCount 案例，带大家一步步动手实践。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月9日

Flink Sum计算

1条回答 默认 最新

问题事件

1条回答默认最新