howel_wang 2021-11-29 14:27 采纳率: 0%
浏览 36
已结题

flink应用keyby之后导致的数据倾斜问题。

应用主要是分析kafka中的日志数据,统计各个接口的tps/qps。实现方式是根据日志中记载的时间戳已接口名为key统计1s中日志中该key(接口)的日志条数,现在由于某些key的日志数据较多,导致keyby之后这些key分配不均匀,数据产生倾斜。进而导致了数据反压问题。
本想着两次聚合,先把每个key加个特定的随机标识,可是因为是要开窗统计1s内的特定key的日志数量,第一次聚合的数据就是打散后的key的1s内的数据了,后面去掉随机标识再聚合的话,数据就不准确了。想请教各位有什么好的办法解决这个问题。

将日志数据转换为Tuple4<String,String,Integer,Integer>
其中4个元素分别为接口名,每条日志中的时间戳,1(一条该接口日志为请求一次),每次请求的响应时间。
  • 写回答

1条回答 默认 最新

  • 有问必答小助手 2021-12-01 09:42
    关注

    你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,技术专家团超时未为您做出解答


    本次提问扣除的有问必答次数,将会以问答VIP体验卡(1次有问必答机会、商城购买实体图书享受95折优惠)的形式为您补发到账户。


    因为有问必答VIP体验卡有效期仅有1天,您在需要使用的时候【私信】联系我,我会为您补发。

    评论

报告相同问题?

问题事件

  • 系统已结题 12月7日
  • 创建了问题 11月29日

悬赏问题

  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试
  • ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
  • ¥15 教务系统账号被盗号如何追溯设备
  • ¥20 delta降尺度方法,未来数据怎么降尺度
  • ¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet,要求快速高效
  • ¥15 再不同版本的系统上,TCP传输速度不一致
  • ¥15 高德地图点聚合中Marker的位置无法实时更新
  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题