最近有个需求是这样的:
1、需要在hive中做一张日均余额的表,其中字段包括月日均、季日均、年日均。
需要每天重算最近7个工作日的日均数据。
2、基础表是一张切片的每日的余额数据。数据并不是每天都有记录的,也就是如果没有余额的话,那一天就没有数据。
3、这是一张大表。
现在的做法是每天找出最近7个工作日,然后用sh将脚本跑七次
这种方式效率很低,特别是日期越靠近年底越慢。
之前试过用 SUM() OVER()累加算出积数之后再刷日均,但是因为存在有些天没记录,导致累积数在没记录的那天就断掉了,
想咨询一下各位大拿是否有其他什么好方法~~