大数据平台搭建中flink on yarn

运行网上的例子，模仿运行却一直不成功，求解答
运行网上的例子，模仿运行却一直不成功，求解答

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一轮明月照丘壑 2024-09-11 18:57
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

在进行Flink on YARN集群的部署和操作时，可能会遇到一些问题。为了帮助您解决问题，我将提供一个基本的步骤指南。

步骤 1: 安装Hadoop与YARN

首先确保您的环境中已经安装了Hadoop和Yarn。您可以从官方网站下载并按照指示进行安装。

步骤 2: 创建Flink Job

要创建一个Flink作业，您需要使用Fluent Flink API。这通常涉及到编写Java代码，并通过ExecuteResultFuture来获取执行结果。

示例代码:

import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class WordCountExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 读取数据源 DataStream<String> input = env.readTextFile("path/to/input/file"); // 将字符串转换为整数 MapFunction<String, Tuple2<Integer, Integer>> mapFunction = new MapFunction<String, Tuple2<Integer, Integer>>() { @Override public Tuple2<Integer, Integer> map(String value) throws Exception { String[] words = value.split("\\s+"); int count = 0; for (String word : words) { if (!word.isEmpty()) { count++; } } return Tuple2.of(count, 1); } }; // 并行化处理 DataStream<Tuple2<Integer, Integer>> processedData = input.map(mapFunction).parallelize(); // 计算单词频率 DataStream<Long> frequencyDataStream = processedData.keyBy(0) .sum(1); // 输出结果 frequencyDataStream.print(); env.execute("Word Count Example"); } }

步骤 3: 运行Flink作业

接下来，启动Flink环境并运行上述示例程序。这可能包括设置环境变量、启动Flink实例以及加载配置文件等。

步骤 4: 观察执行结果

运行完成后，可以通过命令行查看最终输出的结果，例如输出前10个最频繁的单词及其计数。

请注意，上述示例中的input.file是假想的路径，实际应用中应替换为您真实的输入文件路径。此外，这个示例仅适用于简单的流处理场景。对于更复杂的数据处理任务，您可能需要考虑使用Flink的更多功能如窗口、分区等。

结论

虽然上述步骤提供了基本的Flink on YARN架构的实现方法，但具体的细节和实施可能因环境差异而有所不同。如果您遇到了具体的问题，可以尝试查阅相关的文档或者寻求专业的技术支持。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Flink on Yarn -- Session-cluster模式 flink hadoop
2022-04-08 17:24

回答 1 已采纳检查com.dylan.wc.StreamWordCount这个类路径是否正确
FlinkSQL平台化，前端化管理 flink java 大数据
2023-02-01 10:55

回答 4 已采纳题主的思路完全正确可行，因为我就是这么做的。也是一开始觉得不是很正规，但确实能解决实际的业务问题，要相信自己。梳理一下BaseJar：丢到linux服务器上，用来解析Flink SQL语句MySQ
Flink的Watermark flink 大数据
2023-03-28 20:55

回答 2 已采纳对于时间窗口，开始时间和结束时间的计算方式如下：滚动时间窗口：按照固定的时间长度对数据进行分组，窗口的大小和滑动步长相同，例如，5秒的滚动窗口，每5秒钟计算一次。开始时间为当前窗口大小的整数倍，结束
大数据-玩转数据-FLINK(Yarn模式)的安装与部署
2023-05-21 21:05

人猿宇宙的博客内存集中管理模式：在Yarn中初始化一个Flink集群，开辟指定的资源，之后我们提交的Flink Jon都在这个Flink yarn-session中，也就是说不管提交多少个job，这些job都会共用开始时在yarn中申请的资源。
Flink使用时间语义+子查询动态传参报错 flink sql 大数据
2022-08-11 17:52

回答 1 已采纳两个JDBC的维表加上主键定义PRIMARY KEY (sf_id) NOT ENFORCED
Flink处理乱序数据，关于侧输出流的问题 flink scala 大数据
2022-05-27 11:19

回答 1 已采纳当10:14:51的数据来之前，流中最大的事件时间 >= 10:24:50(窗口结束时间) + watermark延迟时间 + 允许延迟时间，导致当前waterMark 的值更新为这个最大的
flink运行是用独立模式还是用yarn模式呢 flink
2021-07-04 18:40

回答 2 已采纳如果任务为多个，那么standalone模式下，资源隔离做的较差。
Flink系列三：Flink架构、独立集群搭建及Flink on YARN模式详解
2024-05-31 08:30

灰太狼！！的博客 Flink架构,Flink独立集群搭建与使用,Flink on yarn的三种部署模式(Application,Per-Job Cluster,Session )
flink跑jar，需要读取csv文件 flink 大数据
2021-12-15 18:57

回答 1 已采纳异常描述的很清楚，文件不存在或者flink没有读取权限
flink-connector-jdbc 是否是开源的，在哪里可以下载到呢 flink java 大数据有问必答
2022-02-09 15:08

回答 2 已采纳在这里：https://github.com/apache/flink/tree/69d9fade5b0e3629c84548c06f0624e9e66fdefe/flink-connectors/f
flink sql on hive 批处理 sql
2021-04-22 21:42

回答 2 已采纳找到了，是关联的右边的字典表出现了很多重复数据，去重之后再关联就好了。
大数据基础设施搭建 - Flink
2024-02-27 08:27

m0_46218511的博客一个应用中可能有多个作业，分发器Dispatcher将每一个作业封装成一个JobMaster...在yarn的WEB-UI界面，点击任务的History位置，如果Flink历史服务器生效就会跳转到Flink历史服务器UI界面，否则会跳转到Yarn的UI界面。
FlinkCDC连mysql时无法获取增量数据 big data flink 大数据
2022-10-12 21:51

回答 1 已采纳解决了，没有开启checkpoint导致，加上下面代码即可env.enableCheckpointing(1000, CheckpointingMode.EXACTLY_ONCE);env.getCh
Flink on Yarn安装配置
2024-03-15 02:00

十二点的泡面的博客 Apache Flink，作为一个开源的分布式处理引擎，近年来在大数据处理领域崭露头角，其独特的流处理和批处理一体化模型，使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍，...
Flink On Yarn部署讲解
2024-06-18 00:40

流量留的博客对于做过大数据开发的这样的一些人员来讲的话，他其实对哈托普ER其实并不陌生。这个是作为我们整个大数据里面非常主流的这样的一个集群资源管理器。提供了这样的一套统一的一个资源管理和调度，以及我们的一个资源的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月11日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？

大数据平台搭建中flink on yarn

1条回答 默认 最新

步骤 1: 安装Hadoop与YARN

步骤 2: 创建Flink Job

示例代码:

步骤 3: 运行Flink作业

步骤 4: 观察执行结果

结论

问题事件

悬赏问题

1条回答默认最新