Spark 数据分析 求助大神 10C

现在我有一组数据,第一列是入站口到出站口(OD),第二列是刷卡的卡号,第三列是出行总时间。
现在我想研究在相同的OD下,出行时长的分布,并从中筛选出出行时长异常的卡号,默认出行时长超过该OD最短出行时长2倍为异常。
图片说明

1

1个回答

spark sql 分两步处理:
第一步:将文件映射成表1 求出每个OD的最短出行时长,结果注册为表2
第二步:表1和表2 join 筛选异常

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark高级数据分析源代码.zip
本资源是《Spark高级数据分析》的书中示例的源代码。所有章节的源代码都包含在内,是spark数据分析的宝典。希望对各位有用
spark高级数据分析 附带源代码
spark高级数据分析 一书中所有的示例代码,每章都有 本书中会有附带源代码实例的字样,但是京东买的书没有附带源代码。 都在这儿了,拿走不谢。
Spark高级数据分析 超高清pdf
本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据
安卓studio.doc
求助大神啊
Spark高级数据分析(中文高清完整pdf版)
本书是由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
Spark高级数据分析
Spark高级数据分析Spark高级数据分析Spark高级数据分析Spark高级数据分析
Spark高级数据分析(完整版)
这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。   本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。   本书介绍了以下模式:   音乐推荐和Audioscrobbler数据集   用决策树算法预测森林植被   基于K均值聚类进行网络流量的异常检测   基于潜在语义分析技术分析维基百科   用GraphX分析伴生网络   对纽约出租车轨迹进行空间和时间数据分析   通过蒙特卡罗模拟来评估金融风险   基因数据分析和BDG项目   用PySpark和Thunder分析神经图像数据
Spark高级数据分析20180731
Spark高级数据分析 Spark高级数据分析 Spark高级数据分析
Spark全栈数据分析_敏捷数据科学2.0_原版
敏捷数据科学2.0版-利用Spark构建全栈数据分析应用,英文原版,中文目录。使用敏捷数据科学的开发方法论将科研成果转化为有意义的数据科学应用;使用Python、Spark、Elasticsearch、Kafka、MongoDB、D3.js构建、部署、完善任意规模的数据分析应用;帮助产品团队学会使用敏捷的方式协作开发分析应用来保障工作成效。
Spark高级数据分析(第2版)【试读】
本书是使用Spark 进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1 版的基础上,针对Spark 近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark 使用了全新的核心API,MLlib 和Spark SQL 两个子项目也发生了较大变化,本书为关注Spark 发展趋势的读者提供了与时俱进的资料,例如Dataset 和DataFrame 的使用,以及与DataFrame API高度集成的Spark ML API。
Spark快速大数据分析(含python)
利用spark框架进行大数据分析,里面有针对python的spark API应用
Spark快速大数据分析+一个Java-Spark例子
Spark快速大数据分析的书,入门必备。虽然说官网也有文档,但是感觉这本书写的更容易懂一些。另外附赠一个java 编写的Spark的demo,可以直接运行,帮助读者更好的理解。
《Spark高级数据分析》源代码
本资源是《Spark高级数据分析》的书中示例的源代码。本书是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
Spark高级数据分析-中文完整
Spark高级数据分析-中文完整
Spark高级数据分析和推荐系统共两本书
压缩包包括《Spark高级数据分析》和《recommender system handbook》,高清晰度,完整的目录,大师讲解。两本都是经典之作,适合作为大数据尤其是大数据分析、及推荐系统的的入门或进阶参考书籍。
《Spark全栈数据分析》_王道远译
《Spark全栈数据分析》_王道远译 本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。
Spark高级数据分析书籍(中文版)及本书源码
Spark高级数据分析书籍(中文版)及本书源码,共享给有需要的你们
大数据书籍-Spark高级数据分析(美)
本书详细介绍了Spark数据分析的原理,从原理深入到逻辑代码,并依托企业项目中遇到的问题,详细阐述如何对Spark进行优化,值得大数据爱好者进行细心研读
Spark高级数据分析(清晰文字版)
Spark高级数据分析(清晰文字版) Spark高级数据分析(清晰文字版)
基于Spark技术的网络安全大数据分析平台
随着计算机技术以及互联网的快速发展,互联网上的数据量已呈指数级增长,逐渐增长成为PB级的海量数据,在大数据时代网络安全依然是一个备受关注的问题。大数据分析技术的引入,不仅给网络安全提供了相应的技术支撑力量,也改变了网络安全整体模式的发展。本文从网络安全面临的严峻形势出发,分析了当前主要的大数据分析技术,提出了基于Spar技术的网络安全大数据分析平台,浅析从海量的数据存储、分析等层面探讨了大数据技术在网络安全分析中的应用。
Spark快速大数据分析(含python) pdf中文 下载
利用spark框架进行大数据分析,里面有针对python的spark API应用
MIPS五级整数流水线模拟系统
MIPS五级整数流水线模拟系统的实验报告,有简单的设计文档和源代码
Spark快速大数据分析(pdf高清完整版)
本书是spark快速入门且由浅入深的非常有用参考资料,用三种语言,Python、Java和Scala的简易API带大家快速掌握spark框架中的要点难点
spark搜狗日志数据分析实战源码(搜索结果和点击排名都是第一)
spark搜狗日志数据饭呢西实战源码(搜索结果和点击排名都是第一)
基于Spark的大数据分析平台的设计与实现
数据分析实现采用Scala编程语言进行实现,通过Spark SQL进行对数据的处理,并把结果存储到MySQL中,最后通过数据可视化技术把数据展示出来
Spark快速大数据分析【完整版】
Spark快速大数据分析【完整版】。入门必备书籍。!!!!
Spark高级大数据分析 PDF
本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
Spark高级数据分析 (美) sandy ryza;uri laserson; 龚少成(译) PDF
Spark高级数据分析 (美) sandy ryza;uri laserson; 龚少成(译
Spark大型项目实战:电商用户行为分析大数据平台
本项目主要用于互联网电商企业中,使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据,辅助公司中的PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标。
Spark高级数据分析.pdf
Spark高级数据分析.pdf
spark大数据案例
包含了Spark的一系列的小案例,包含core,sql,stream等案例
Spark快速大数据分析.pdf
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。 目录 1.1 Spark是什么 1 1.2 一个大一统的软件栈 2 1.2.1 Spark Core 2 1.2.2 Spark SQL 3 1.2.3 Spark Streaming 3 1.2.4 MLlib 3 1.2.5 GraphX 3 1.2.6 集群管理器 4 1.3 Spark的用户和用途 4 1.3.1 数据科学任务 4 1.3.2 数据处理应用 5 1.4 Spark简史 5 1.5 Spark的版本和发布 6 1.6 Spark的存储层次 6 第2章 Spark下载与入门 7 2.1 下载Spark 7 2.2 Spark中Python和Scala的shell 9 2.3 Spark 核心概念简介 12 2.4 独立应用 14 2.4.1 初始化SparkContext 15 2.4.2 构建独立应用 16 2.5 总结 19 第3章 RDD编程 21 3.1 RDD基础 21 3.2 创建RDD 23 3.3 RDD操作 24 3.3.1 转化操作 24 3.3.2 行动操作 26 3.3.3 惰性求值 27 3.4 向Spark传递函数 27 3.4.1 Python 27 3.4.2 Scala 28 3.4.3 Java 29 3.5 常见的转化操作和行动操作 30 3.5.1 基本RDD 30 3.5.2 在不同RDD类型间转换 37 3.6 持久化( 缓存) 39 3.7 总结 40 第4章 键值对操作 41 4.1 动机 41 4.2 创建Pair RDD 42 4.3 Pair RDD的转化操作 42 4.3.1 聚合操作 45 4.3.2 数据分组 49 4.3.3 连接 50 4.3.4 数据排序 51 4.4 Pair RDD的行动操作 52 4.5 数据分区(进阶) 52 4.5.1 获取RDD的分区方式 55 4.5.2 从分区中获益的操作 56 4.5.3 影响分区方式的操作 57 4.5.4 示例:PageRank 57 4.5.5 自定义分区方式 59 4.6 总结 61 第5章 数据读取与保存 63 5.1 动机 63 5.2 文件格式 64 5.2.1 文本文件 64 5.2.2 JSON 66 5.2.3 逗号分隔值与制表符分隔值 68 5.2.4 SequenceFile 71 5.2.5 对象文件 73 5.2.6 Hadoop输入输出格式 73 5.2.7 文件压缩 77 5.3 文件系统 78 5.3.1 本地/“常规”文件系统 78 5.3.2 Amazon S3 78 5.3.3 HDFS 79 5.4 Spark SQL中的结构化数据 79 5.4.1 Apache Hive 80 5.4.2 JSON 80 5.5 数据库 81 5.5.1 Java数据库连接 81 5.5.2 Cassandra 82 5.5.3 HBase 84 5.5.4 Elasticsearch 85 5.6 总结 86 第6章 Spark编程进阶 87 6.1 简介 87 6.2 累加器 88 6.2.1 累加器与容错性 90 6.2.2 自定义累加器 91 6.3 广播变量 91 6.4 基于分区进行操作 94 6.5 与外部程序间的管道 96 6.6 数值RDD 的操作 99 6.7 总结 100 第7章 在集群上运行Spark 101 7.1 简介 101 7.2 Spark运行时架构 101 7.2.1 驱动器节点 102 7.2.2 执行器节点 103 7.2.3 集群管理器 103 7.2.4 启动一个程序 104 7.2.5 小结 104 7.3 使用spark-submit 部署应用 105 7.4 打包代码与依赖 107 7.4.1 使用Maven构建的用Java编写的Spark应用 108 7.4.2 使用sbt构建的用Scala编写的Spark应用 109 7.4.3 依赖冲突  111 7.5 Spark应用内与应用间调度 111 7.6 集群管理器 112 7.6.1 独立集群管理器 112 7.6.2 Hadoop YARN 115 7.6.3 Apache Mesos 116 7.6.4 Amazon EC2 117 7.7 选择合适的集群管理器 120 7.8 总结 121 第8章 Spark调优与调试 123 8.1 使用SparkConf配置Spark 123 8.2 Spark执行的组成部分:作业、任务和步骤 127 8.3 查找信息 131 8.3.1 Spark网页用户界面 131 8.3.2 驱动器进程和执行器进程的日志 134 8.4 关键性能考量 135 8.4.1 并行度 135 8.4.2 序列化格式 136 8.4.3 内存管理 137 8.4.4 硬件供给 138 8.5 总结 139 第9章 Spark SQL 141 9.1 连接Spark SQL 142 9.2 在应用中使用Spark SQL 144 9.2.1 初始化Spark SQL 144 9.2.2 基本查询示例 145 9.2.3 SchemaRDD 146 9.2.4 缓存 148 9.3 读取和存储数据 149 9.3.1 Apache Hive 149 9.3.2 Parquet 150 9.3.3 JSON 150 9.3.4 基于RDD 152 9.4 JDBC/ODBC服务器 153 9.4.1 使用Beeline 155 9.4.2 长生命周期的表与查询 156 9.5 用户自定义函数 156 9.5.1 Spark SQL UDF 156 9.5.2 Hive UDF 157 9.6 Spark SQL性能 158 9.7 总结 159 第10章 Spark Streaming 161 10.1 一个简单的例子 162 10.2 架构与抽象 164 10.3 转化操作 167 10.3.1 无状态转化操作 167 10.3.2 有状态转化操作 169 10.4 输出操作 173 10.5 输入源 175 10.5.1 核心数据源 175 10.5.2 附加数据源 176 10.5.3 多数据源与集群规模 179 10.6 24/7不间断运行 180 10.6.1 检查点机制 180 10.6.2 驱动器程序容错 181 10.6.3 工作节点容错 182 10.6.4 接收器容错 182 10.6.5 处理保证 183 10.7 Streaming用户界面 183 10.8 性能考量 184 10.8.1 批次和窗口大小 184 10.8.2 并行度 184 10.8.3 垃圾回收和内存使用 185 10.9 总结 185 第11章 基于MLlib的机器学习 187 11.1 概述 187 11.2 系统要求 188 11.3 机器学习基础 189 11.4 数据类型 192 11.5 算法 194 11.5.1 特征提取 194 11.5.2 统计 196 11.5.3 分类与回归 197 11.5.4 聚类 202 11.5.5 协同过滤与推荐 203 11.5.6 降维 204 11.5.7 模型评估 206 11.6 一些提示与性能考量 206 11.6.1 准备特征 206 11.6.2 配置算法 207 11.6.3 缓存RDD以重复使用 207 11.6.4 识别稀疏程度 207 11.6.5 并行度 207 11.7 流水线API 208 11.8 总结 209 作者简介 210 封面介绍 210 [1]
Spark学习书籍
包含Spark编程指南中文版,Spark快速大数据分析,Spark机器学习,Spark高级数据分析四本书籍
Spark快速大数据分析(文字版PDF)
Spark快速大数据分析(文字版PDF),Spark数据分析入门必备。
spark快速大数据分析中文完整带目录PDF
大数据是近几年广受关注的一个概念。今天,互联网不断发展,逐渐深入我们生活的各个层面,随之而来的是数据量的指数级增长。很久以前,人类就学会了通过分析数据获取有价值的结论。有时,影响结论的因素过多,采样的数据无法有效保留所有因素的影响,得出的结论就不够有效。如果不使用采样,而原始数据规模巨大,我们就需要改进数据处理的手段。从人工统计到利用一些传统的计算机软件进行...
基于eclipse的spark入门基础案例(hadoop、spark)
第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序
spark高级数据分析(第二版)2019.pdf.zip
spark高级数据分析(第二版)
Spark大数据分析实战(完整版)
这个是完整版的,有需要的请下载!这个是完整版的,有需要的请下载!
spark学习资料
spark进行数据分析与挖掘的开发工具,线下数据分析的工具。
Data Analytics with Spark Using Python
Data Analytics with Spark Using Python (Addison-Wesley Data & Analytics Series) By 作者: Jeffrey Aven ISBN-10 书号: 013484601X ISBN-13 书号: 9780134846019 Edition 版本: 1 出版日期: 2018-06-16 pages 页数: 851 Solve Data Analytics Problems with Spark, PySpark, and Related Open Source Tools Spark is at the heart of today’s Big Data revolution, helping data professionals supercharge efficiency and performance in a wide range of data processing and analytics tasks. In this guide, Big Data expert Jeffrey Aven covers all you need to know to leverage Spark, together with its extensions, subprojects, and wider ecosystem. Aven combines a language-agnostic introduction to foundational Spark concepts with extensive programming examples utilizing the popular and intuitive PySpark development environment. This guide’s focus on Python makes it widely accessible to large audiences of data professionals, analysts, and developers—even those with little Hadoop or Spark experience. Aven’s broad coverage ranges from basic to advanced Spark programming, and Spark SQL to machine learning. You’ll learn how to efficiently manage all forms of data with Spark: streaming, structured, semi-structured, and unstructured. Throughout, concise topic overviews quickly get you up to speed, and extensive hands-on exercises prepare you to solve real problems. Coverage includes: Understand Spark’s evolving role in the Big Data and Hadoop ecosystems Create Spark clusters using various deployment modes Control and optimize the operation of Spark clusters and applications Master Spark Core RDD API programming techniques Extend, accelerate, and optimize Spark routines with advanced API platform constructs, including shared variables, RDD storage, and partitioning Efficiently integrate Spark with both SQL and nonrelational data stores Perform stream processing and messaging with Spark Streaming and Apache Kafka Implement predictive modeling with SparkR and Spark MLlib I:Spark Foundations 1Introducing Big Data,Hadoop,and Spark 2Deploying Spark 3 Understanding the Spark Cluster Architecture 4 Learning Spark Programming Basics lⅡ:Beyond the Basics 5 Advanced Programming Using the Spark Core APl 6 SQLand NoSQL Programming with Spark 7 Stream Processing and Messaging Using Spark 8 Introduction to Data Science and Machine Learning Using Spark
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 数据分析 java大神班