你好按钮啊 2023-02-01 10:55 采纳率: 40%

已结题

FlinkSQL平台化，前端化管理

FlinkSql的前端化，平台化思路。

想搞一个平台。后端采用Java。实现类似于FlinkSQLClient的功能，即往后台Flink发送一连串的FlinkSQL命令，后台Flink可以直接执行并提交对应的任务。该平台也可以同步管理Flink已有任务。

FlinkSQL命令包含设置参数的命令，DQL，DML，DDL等等。如下所示。

-- 设置参数的语句
set execution.checkpointing.intervat = 10000;
set execution.checkpointingtimout = 10000;

--  DDL建表语句
CREATE TABLE doris_test_sink (
   id INT,
   name varchar(255),
   sex varchar(255)
) 
WITH (
  'connector' = 'doris',
  'fenodes' = 'srvbd59.net.cn:8030',
  'table.identifier' = 'cdc_test.user_info',
  'sink.batch.size' = '2',
  'sink.batch.interval'='1',
  'username' = 'root',
  'password' = '123456'
)

-- DML语句
insert into  ....

我的思路

1：上面的思路就是提前packet一个BaseJar,放到Linux上。
2：BaseJar中要执行的SQL语句是通过JDBC从数据库中拉取。通过for循环执行。
3：要执行的SQL语句是先通过编辑器编辑，然后存储在数据库中。
4：通过Java代码操作Linux，拼接flink run命令，并且在命令中拼接--SqlKey，通过ParameterTool.fromArgs获取作为键拉取要执行的SQL。
5：按照以上的思路，所有的任务都是基于一个BaseJar包运行的多个任务。
6：以上思路经初步验证是可行的。

该思路中的问题。

tableEnv.executeSql("sql语句")不能执行设置参数的语句，如下：

tableEnv.executeSql("set execution.checkpointing.intervat = 10000;")

但设置属性的参数不能通过tableEnv.executeSql(）执行。会报下面的错误。

 Exception in thread "main" org.apache.flink.table.api.TableException: 
Unsupported SQL query! executeSql() only accepts a single SQL statement of type
 CREATE TABLE, DROP TABLE, ALTER TABLE, CREATE DATABASE, DROP DATABASE, ALTER DATABASE, CREATE FUNCTION, 
DROP FUNCTION, ALTER FUNCTION, CREATE CATALOG, DROP CATALOG, USE CATALOG, USE [CATALOG.]DATABASE, 
SHOW CATALOGS, SHOW DATABASES, SHOW TABLES, SHOW [USER] FUNCTIONS, SHOW PARTITIONSCREATE VIEW, 
DROP VIEW, SHOW VIEWS, INSERT, DESCRIBE, LOAD MODULE, UNLOAD MODULE, USE MODULES, SHOW [FULL] MODULES.

关于上面的问题，初步考虑可以通过Java代码解析字符串，然后直接拼接成Configuration。然后再构建环境。

Configuration configuration = new Configuration();
// 设置底层 key-value 选项
configuration.setString("table.exec.mini-batch.enabled", "true");
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
configuration.setString("table.exec.mini-batch.size", "5000");
EnvironmentSettings settings = EnvironmentSettings.newInstance()
        .inStreamingMode().withConfiguration(configuration).build();
TableEnvironment tEnv = TableEnvironment.create(settings);

类比其他的开源框架。

可以参考下一个开源框架Dinky，如果可以看源码的话。个人想寻求代码思路。

总结

我就是思考了一下FlinkSQL平台化的初步思路，但我这个思路总觉得不太正规。想知道Flink有没有提供这样一个API。给它要执行的SQL，他可以自动启动一个任务。或者觉得有其他更好的思路可以探讨一下。

最后

有没有平台化开发的相关经验的人员，后续我的工作要涉及到平台开发。希望可以提供指导。当然，如果提供实质帮助。我也可以有偿。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
白夜鸦羽 2023-02-02 19:13
关注
题主的思路完全正确可行，因为我就是这么做的。也是一开始觉得不是很正规，但确实能解决实际的业务问题，要相信自己。

梳理一下
BaseJar：丢到linux服务器上，用来解析Flink SQL语句
MySQL：存储要执行的Flink SQL语句
Platform：调用BaseJar，传入参数task_id，告诉BaseJar要读取MySQL里的哪一条Flink SQL进行解析，并生成一个Flink SQL任务。

这里有3个细节
1.BaseJar的入口类的Main函数，支持传入参数，这个参数就可以定为task_id
2.建议重新设计MySQL表，既然一行MySQL数据存储一个Flink SQL任务，那么至少要有三个字段
data_source：Flink SQL源表，指定从哪里接入数据，一般是Kafka
data_sink：Flink SQL落地表，指定任务结果写到哪里,一般是Kafka
task_sql：Flink SQL逻辑代码
这样一行MySQL数据就能生成一个完整的Flink SQL任务，且可以根据task_id来获取到这个任务配置解析
3.拼接flink run命令调用BaseJar，但属于本地命令执行，要依赖本地环境，更好的办法是远程提交Flink任务。但远程提交Flink任务现在没有现成的代码，需要自己去撸Flink源码。

回到问题本身：tableEnv.executeSql("sql语句")不能执行设置参数的语句。
当然不能，因为Flink流任务在一开始必须是确定的，但我们可以通过向Main方法传参task_id，来实现一个BaseJar读取不同的Flink SQL语句，生成不同的Flink SQL任务。本身已经想到了用MySQL存Flink SQL，就不要再用Configuration了。

补充：
现在已经有很多这样的开源平台了，如果觉得自己造轮子麻烦，可以直接用开源的。
StreamPark：刚刚被Apache收纳为大数据平台孵化项目，https://github.com/apache/incubator-streampark
Ververica Platform：Flink官方提供的Flink SQL执行平台，还行吧勉强用英文不友好，https://www.ververica.com/getting-started

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

网易游戏 Flink SQL 平台化实践
2022-07-18 21:30

Apache Flink的博客网易游戏 Flink SQL 发展历程基于模板 jar 的 StreamflySQL v1 基于 SQL Gateway 的 StreamflySQL v2 未来工作点击查看直播回放 & 演讲PDF 一、网易游戏 Flink SQL 发展历程网易游戏实时计算平台叫做 ...
Flink SQL管理平台flink-streaming-platform-web安装搭建
2022-12-01 18:31

大数据技术派的博客最近看到有人在用flink sql的页面管理平台，大致看了下，尝试安装使用，比原生的flink sql界面确实好用多了，我们看下原生的，通过bin/sql-client.sh命令进入那个黑框，一只松鼠，对，就是那个界面。。。。这个工具...
Dlink ？一款交互式FlinkSQL开发平台
2021-12-20 14:05

明月清风，良宵美酒的博客 Dlink ？一款交互式FlinkSQL开发平台
利用Flink在大数据领域实现数据实时可视化
2025-09-15 10:22

操作系统内核探秘的博客 Flink流处理的核心机制（事件时间、水印、窗口）实时数据从采集（Kafka）→处理（Flink）→存储（Redis/ClickHouse）→可视化（Grafana/ECharts）的全流程典型场景的工程实践（如电商实时GMV、IoT设备状态监控）
联通 Flink 实时计算平台化运维实践
2023-07-13 20:00

Apache Flink的博客联通数科实时计算团队负责人、Apache StreamPark Committer 穆纯进在 Flink Forward Asia 2022 平台建设专场的分享。
【大数据技术实战】Flink+DS+Dinky 自动化构建数仓平台
2025-09-02 23:24

shinelord明的博客数仓现存开发效率低、运维碎片化、架构扩展性弱等痛点，如 Flink 开发门槛高、批流数据偏差、资源利用率仅 30%。以 “Flink+DolphinScheduler+Dinky” 构建平台，Dinky 简化开发、DolphinScheduler 实现分布式调度、...
大数据领域数据可视化，引领数据分析新潮流
2025-09-05 01:37

光子AI的博客 大数据可视化：指将海量（Volume）、高速（Velocity）、多样（Variety）、低价值密度（Value）、真实性（Veracity）的大数据，通过视觉编码转化为图形符号，辅助用户理解数据规律、发现异常、做出决策的技术。...
智慧物流车辆大数据可视化管控平台设计方案.pptx
2025-12-24 08:49

云计算处理平台架构由分布式存储体系、流批一体计算框架、算法模型服务化、数据治理中间件架构组成，采用HDFS+NoSQL混合存储方案，利用Spark、Spark Streaming+Flink构建实时计算管道，实现车辆轨迹实时追踪与异常...
Hadoop+ECharts：构建企业级大数据可视化平台
2025-09-19 19:06

AI原生应用开发的博客本文将带你走进“大数据处理+可视化”的企业级解决方案：用Hadoop生态系统解决海量数据的存储与计算问题，用ECharts将冰冷的数字转化为直观的图表，最终搭建一个能支撑企业决策的大数据可视化平台。我们会用“工厂...
大数据领域数据可视化的最佳实践分享
2025-05-13 15:46

光子AI的博客在数据量呈指数级增长的今天，大数据可视化已从辅助分析工具演变为驱动数据决策的核心引擎。本文聚焦PB级数据规模下的可视化工程实践如何平衡可视化复杂度与信息传达效率？高维数据与非结构化数据的有效可视化映射...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月1日