Spark 数据分析 求助大神 10C

现在我有一组数据,第一列是入站口到出站口(OD),第二列是刷卡的卡号,第三列是出行总时间。
现在我想研究在相同的OD下,出行时长的分布,并从中筛选出出行时长异常的卡号,默认出行时长超过该OD最短出行时长2倍为异常。
图片说明

1个回答

spark sql 分两步处理:
第一步:将文件映射成表1 求出每个OD的最短出行时长,结果注册为表2
第二步:表1和表2 join 筛选异常

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!