还是昨天的Spark数据分析的问题，求代码，有帮助的可以再加C币

现在我有一组数据，第一列是入站口到出站口（OD），第二列是刷卡的卡号，第三列是出行总时间。
现在我想研究在相同的OD下，出行时长的分布，并从中筛选出出行时长异常的卡号，默认出行时长超过该OD最短出行时长2倍为异常。
图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

默默悟问 2018-04-27 07:18

关注

 from __future__ import print_function

import sys

from pyspark.sql import SparkSession

def min(a,b):
    return a if a < b else b


if __name__ == "__main__":
    if len(sys.argv) != 2:
        print("Usage:  odcount <file>", file=sys.stderr)
        exit(-1)

    spark = SparkSession\
        .builder\
        .appName("PythonODCount")\
        .getOrCreate()

    lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
    lines = lines.filter( lambda line: len(line.strip()) > 0 )
    mintimes = lines.flatMap(lambda x: [x[1:-1]]) \
                  .map( lambda x: (x.split(',')[0], int(x.split(',')[2])) ) \
                  .reduceByKey(min)
    mintime_list = mintimes.collect()
    mintime_map = {}
    print("min time:")
    for (od, mintime) in mintime_list:
        mintime_map[od] = mintime
        print("%s: %i" % (od.encode('utf-8'), mintime))

    largelines = lines.flatMap(lambda x: [x[1:-1]]) \
                  .filter( lambda x: int(x.split(',')[2]) > 2 * mintime_map.get(x.split(',')[0]) )

    print("large time line:")
    for line in largelines.collect():
        print("%s" % line.encode('utf-8'))

    spark.stop()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

还是昨天的Spark数据分析的问题，求代码，有帮助的可以再加C币 spark 数据分析
2018-04-26 01:37

回答 2 已采纳 ``` from __future__ import print_function import sys from pyspark.sql import SparkSession
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 20:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
大数据开源框架之基于Spark的气象数据处理与分析
2023-01-02 12:20

木子一个Lee的博客数据规模达到2412个城市，57888条数据，有部分城市部分时间点数据存在缺失或异常。特别说明：实验所用数据均为网上爬取，没有得到中央气象台官方授权使用，使用范围仅限本次实验使用，请勿用于商业用途。
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
spark json数据写入mysql数据库问题 json mysql spark
2022-01-25 09:53

回答 1 已采纳问题已解决：参考这个=====>https://blog.csdn.net/weixin_43753599/article/details/122697542?spm=1001.2014.300
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
终于有人把Spark大数据分析与挖掘讲明白了
2022-07-23 12:00

风度78的博客当我们每天面对扑面而来的海量数据时，是战斗还是退却，是去挖掘其中蕴含的无限资源，还是让它们自生自灭？我们的答案是：“一切都取决于你自己”。对于海量而庞大的数据来说，在不同人眼里，既可以是一座亟待销毁的...
关于spark 的执行有问题求教。 hive spark 大数据
2017-11-07 09:17

回答 3 已采纳我觉得你有点大材小用了，，而且太麻烦了，，首先，spark有原生的sparkSQL可以直接调用，没必要hive 我觉得你对大数据的计算框架没理解透彻， spark和hadoop都是一样的，计算
关于#spark#的问题：sparksql数据类型储存对象 spark
2022-11-29 13:16

回答 1 已采纳 1、目前pyspark.sql.types支持的数据类型：NullType、StringType、BinaryType、BooleanType、DateType、TimestampType、Decim
写Spark脚本处理大规模数据时，如何区分哪部分代码是在单机运行，哪部分代码是在集群运行？ python spark 大数据
2022-08-27 16:48

回答 1 已采纳 webui上能看到各个stage运行的阶段，在哪个节点上执行的以及执行信息，希望能帮到你
基于spark对美国新冠肺炎疫情数据分析
2023-05-31 11:34

小明爱學習的博客 2020年美国新冠肺炎疫情...本篇论文旨在使用 Spark 进行数据处理分析，以了解2020年美国新冠肺炎疫情在该国的传播情况，并探讨各州疫情数据之间的相互关系。在数据处理和可视化方面采用 Spark 和 Python 技术进行实现。
Spark数据的对比 spark
2021-07-16 16:19

回答 1 已采纳唯一标识为ID第一个思路为：数据都装入两个map中。key为id value为值。json1为map1，json2为map2。id装为两个数组.json1为数组1，json2为数组2。新增的就是j
分享思路：Python+Spark招聘爬虫可视化系统招聘数据分析 Hadoop职位可视化 大数据毕业设计 51job数据分析(可选加推荐算法)
2021-11-30 23:13

B站计算机毕业设计超人的博客目前市面上Python+Spark的爬虫招聘数据分析可视化系统很少，于是我们设计了一套，希望给大家一套完整的设计方案和思路，助力大数据开发！
Spark大数据分析与实战笔记（第一章 Scala语言基础-3）
2023-09-04 08:09

想你依然心痛的博客文章目录 1.3 Scala的数据结构 1.3.1 数组数组的遍历数组转换 1.3.2 元组创建元组获取元组中的值拉链操作 1.3.3 集合 List Set Map 1.3 Scala的数据结构对于每一门编程语言来说，数组（Array）都是重要的数据...
没有解决我的问题, 去提问

悬赏问题

¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码

码龄粉丝数原力等级 --

还是昨天的Spark数据分析的问题，求代码，有帮助的可以再加C币

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

还是昨天的Spark数据分析的问题，求代码，有帮助的可以再加C币

2条回答 默认 最新

悬赏问题

2条回答默认最新