flink应用keyby之后导致的数据倾斜问题。

应用主要是分析kafka中的日志数据，统计各个接口的tps/qps。实现方式是根据日志中记载的时间戳已接口名为key统计1s中日志中该key（接口）的日志条数，现在由于某些key的日志数据较多，导致keyby之后这些key分配不均匀，数据产生倾斜。进而导致了数据反压问题。
本想着两次聚合，先把每个key加个特定的随机标识，可是因为是要开窗统计1s内的特定key的日志数量，第一次聚合的数据就是打散后的key的1s内的数据了，后面去掉随机标识再聚合的话，数据就不准确了。想请教各位有什么好的办法解决这个问题。

将日志数据转换为Tuple4<String,String,Integer,Integer>
其中4个元素分别为接口名，每条日志中的时间戳，1（一条该接口日志为请求一次），每次请求的响应时间。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-12-01 09:42
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Flink处理乱序数据，关于侧输出流的问题 flink scala 大数据
2022-05-27 11:19

回答 1 已采纳当10:14:51的数据来之前，流中最大的事件时间 >= 10:24:50(窗口结束时间) + watermark延迟时间 + 允许延迟时间，导致当前waterMark 的值更新为这个最大的
flink两个流join的时候怎么解决数据延迟问题 flink 有问必答
2021-07-16 14:22

回答 1 已采纳 OutputTag获取迟到数据，二次消费
flink消费kafka数据延迟 flink postgresql scala 有问必答
2022-01-28 09:47

回答 1 已采纳那最后写入到库了吗，如果写不进去，上游kafka肯定会延迟越来越大的，可以在sink里多打印下错误，或者设置写入超时时间，问题应该在写入
Flink教程-keyby 窗口数据倾斜的优化
2020-08-25 09:22

大数据技术与应用实战的博客在大数据处理领域，数据倾斜是一个非常常见的问题，今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。我们先来看一个可能产生数据倾斜的sql. select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,...
flinksql读取kafka数据报错 flink kafka
2022-07-13 20:33

回答 3 已采纳 restclient异常，先看看taskmanager和jobmanager是否正常，然后你可以在jobmanager的节点上访问webUI查看job状态，又或者直接查看宿主机上的日志排查问题
flink多jobmanager运行重复输出问题 flink java spark
2022-04-24 10:13

回答 1 已采纳多个节点，同时获取到了数据，几个节点就有几次
flink支持对对窗口内数据过滤吗？ flink 大数据
2021-08-03 10:23

回答 1 已采纳超过00:00的数据如果不需要，直接放入测流就好。不管是后续使用还是丢掉。或者本身就有时间字段，直接加filter算子过滤不参与flink计算就好。
Flink数据倾斜问题以及解决方法
2022-04-30 16:42

BadManChd的博客 1. 判断是否存在数据倾斜 相同 Task 的多个 Subtask 中，个别Subtask ...如果 keyBy 之前就存在数据倾斜，上游算子的某些实例可能处理的数据较多，某些实例可能处理的数据较少，产生该情况可能是因为数据源的数据本身
FlinkCDC连mysql时无法获取增量数据 big data flink 大数据
2022-10-12 21:51

回答 1 已采纳解决了，没有开启checkpoint导致，加上下面代码即可env.enableCheckpointing(1000, CheckpointingMode.EXACTLY_ONCE);env.getCh
flink sql如何做一个超大数据的排序 flink
2021-07-20 16:10

回答 1 已采纳放到kafka缓存或者切成一个个小文件
关于Flink接收Kafka流数据使用Table API和SQL处理的问题 flink 有问必答
2021-08-18 11:07

回答 2 已采纳你的包是不是导错了。删除你导入的包，把下面的包复制放你程序中。 import org.apache.flink.api.common.typeinfo.TypeInformation; import
完美解决keyby造成的数据倾斜导致吞吐量降低的问题
2022-01-02 19:35

第一片心意的博客 1. 问题现象最近在做一个类似页面pv的累加统计，根据页面id维度来统计一段时间内收到了数据。下面模拟的是处理数据的原始程序。 2. 原始处理 2.1.模拟kafka源 import org.apache.flink.streaming.api....
关于#flink代码#的问题，如何解决？ eclipse flink java
2023-03-07 15:49

回答 4 已采纳 Flink 在启动任务的时候，创建输入分片时发生了错误，导致无法启动任务。你需要检查一下程序中读取文件的代码是否正确，文件路径是否正确，文件是否存在，并且当前用户是否有访问该文件的权限。如果需要，可以
大数据数据倾斜问题
2021-08-25 15:02

000X000的博客简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。表现相信大部分做数据的童鞋们都会遇到数据倾斜，数据倾斜会发生在数据开发的各个环节中，比如：用Hive算数据的...
轻松通关Flink第16讲：如何处理生产环境中的数据倾斜问题
2023-03-27 08:11

源码头的博客这一课时我们介绍了数据倾斜的原理和常见的解决方案，数据倾斜问题是大数据开发者遇到的最普遍也是最头疼的问题之一，如何高效地发现和解决数据倾斜问题是一个大数据从业者技术能力的直接体现。点击这里下载本课程...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

flink应用keyby之后导致的数据倾斜问题。

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新