sql合并连续时间段内，某字段相同的行。

(HIVE/SPARK)建表语句如下:
create database if not exists test;
use test;
CREATE TABLE if not exists test.test (
dt string,
level string,
cnt int )
ROW format delimited FIELDS TERMINATED BY '\t';
INSERT INTO TABLE test.test VALUES
( '2022:08:01 01', 'high', 12 ),( '2022:08:01 02', 'low', 4 ),( '2022:08:01 03', 'low', 5 ),
( '2022:08:01 04', 'low', 1),( '2022:08:01 05', 'low', 2 ),( '2022:08:01 06', 'high', 14 ),
( '2022:08:01 07', 'high', 15),( '2022:08:01 08', 'high', 11 ),( '2022:08:01 09', 'low', 9 ),
( '2022:08:01 10', 'high', 10 ),( '2022:08:01 11', 'high', 11 ),( '2022:08:01 12', 'low', 8 );

表如下：
2022:08:01 01,high,12
2022:08:01 02,low,4
2022:08:01 03,low,5
2022:08:01 04,low,1
2022:08:01 05,low,2
2022:08:01 06,high,14
2022:08:01 07,high,15
2022:08:01 08,high,11
2022:08:01 09,low,9
2022:08:01 10,high,10
2022:08:01 11,high,11
2022:08:01 12,low,8

现需求如下：
2022:08:01 01,high,12
2022:08:01 02,low,12
2022:08:01 06,high,40
2022:08:01 09,low,9
2022:08:01 10,high,21
2022:08:01 12,low,8

大意为：
将level为high或low的连续时间段，合并为‘高峰期’和‘低谷期‘，并加和期间的流量。
如结果中的dt能为当前期间的‘开始-结尾’格式更佳。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
三千烦恼丝xzh 2022-08-02 10:34
关注
给个思路，先实现连续段切分，使用row_number求两个序号，一个全局分区dt排序，一个level分区dt排序，然后全局分区号减去level分区号得出的数一致的则为连续的段，之后用这个段做group的前缀key则可以实聚合求值，而且用Max和Min也可以拿到分区最大最小dt时间

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Sqlserver 高并发和大数据存储方案
2020-12-16 17:13

例如，根据时间字段或用户ID进行分区，这样查询时能更快定位到所需数据段。 - 设计作业Job来管理和合并分区，将不再需要的数据转移到其他表并清除，以释放存储空间。此外，通过SQL查询跟踪找出长时间运行的查询，...
大数据SQL调优专题——调优切入
2025-02-26 23:21

黄雪超的博客 大数据SQL调优专题——调优切入
横扫SQL面试——连续性登录问题
2025-03-29 11:43

喻师傅的博客 SQL连续登录问题
大数据之SQL优化
2022-10-26 14:18

june_francis的博客一个优秀的 SQL Boy 和茶树姑的 SQL 代码除了保持简单、可读和易于维护的样式风格外，还需要具备良好的执行性能，准确且高效的计算出结果才能让你在工作中决胜于千里之外。计算资源量（CPU，内存，网络等）；计算...
大数据笔试必看SQL篇(牛刀小试)
2022-11-15 22:06

大数据兵工厂的博客老兵原创大数据笔试必看SQL篇
大数据SQL调优专题——引入
2025-02-13 06:00

黄雪超的博客 大数据SQL调优专题——引入本专栏从SQL调优入手，但不止于SQL，调优是一个涉及很多方面的事项，掌握好调优，才算真的入门数据开发。
一文搞懂连续问题
2024-07-09 22:16

数据仓库_晨曦的博客我们写过各式各样的连续，今天我们做一个总结。连续问题考察范围可能涉及到：开窗函数，lag函数，row_number()，sum()over(order by) 等各种函数，以及相关数据处理技巧等，无论选取那种方法，连续问题都是相对...
大数据SQL优化之数据倾斜解决案例全集
2022-01-18 19:38

过往记忆的博客 1 什么是数据倾斜数据倾斜即指在大数据计算任务中某个处理任务的进程（通常是一个JVM进程）被分配到的任务量过多，导致任务运行时间超长甚至最终失败，进而导致整个大任务超长时间运行或者失败。外...
大数据SQL数据倾斜与数据膨胀的优化与经验总结
2024-06-27 08:53

code36的博客本文主要基于团队实际开发经验与积累，并结合了业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。背景目前市面上大数据查询分析引擎层出不穷，如Spark，Hive，Presto等，因其友好的SQL语法，被广泛应用...
【系统架构设计师】二十五、大数据架构设计理论与实践③
2024-08-09 08:00

帅次的博客 大数据架构设计案例分析：Lambda架构在某网奥运中的大数据应用；Lambda架构在某网广告平台的应用与演进；某证券公司大数据系统；某电商智能决策大数据系统。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 8月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月2日

sql合并连续时间段内，某字段相同的行。

1条回答 默认 最新

问题事件

1条回答默认最新