spark分组排序提取前N个值

求教各位大神：
本人用scalas+spark开发，用RDD实现以下需求时遇到困难！
数据：
用户位置天数
user1 L1 28
user1 L2 20
user1 L3 15
user2 L1 30
user2 L2 15
user3 L5 3
user3 L6 18
user4 L7 4
通过spark RDD怎样实现按用户分组提取每个用户天数最大的位置

希望数据结果：
RDD：
array（（user1，L1，28），（user2，L1，30），（user3 ， L6，18）,(user4,,7 4))
这里主体是根据用户分组计算最大天数，并把位置带出来，研究半天无果，求大神指教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2018-07-19 08:50
关注
https://blog.csdn.net/accptanggang/article/details/52926138

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
spark求部门年龄的平均值 spark
2022-05-12 13:28

回答 1 已采纳你下面这行是读取的员工文件里的数据然后按照\t切分数据切分之后获取每列数据首先确认一下数据是不是用制表符切分的然后看一下是不是有的行数据切分完是不是四列
spark学习7.1：对RDD进行排序取前几
2021-06-25 17:08

hzp666的博客根据第三列，进行倒叙排序，取最大前5个代码： import org.apache.spark.{SparkConf, SparkContext} object Top { def main(args: Array[String]): Unit = { //creat conf val conf = new SparkConf()....
虚拟机里安装spark时报错 hadoop spark 大数据
2022-12-07 13:39

回答 1 已采纳缺少jar包：org/slf4j/impl/StaticLoggerBinder，添加一下slf4j-nop-xxx.jar
一个关于spark的问题 hadoop spark 有问必答
2023-03-08 19:48

回答 2 已采纳连接被拒绝，说明服务不通。检查对应服务是否有启动。
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
大数据技术之 Spark 优化
2023-07-14 11:18

一凡888的博客通常来说，task 可能不会被分配到它处理的数据所在的节点，因为这些节点可用的资源可能已经用尽，此时，Spark 会等待一段时间，默认 3s，如果等待指定时间后仍然无法在指定节点运行，那么会自动降级，尝试将 task ...
spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 19:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
spark 调用SparkPi时，显示拒绝连接 hadoop spark 大数据
2023-03-15 15:46

回答 1 已采纳这篇文章：spark 运行自带样例SparkPi、spark-examples报错也许有你想要的答案，你可以看看
大数据之Spark案例实操完整使用(第六章)
2022-06-27 10:02

小坏讲微服务的博客上面的数据图是从数据文件中截取的一部分内容，表示为电商网站的用户行为数据...针对于下单行为，一次可以下单多个商品，所以品类 ID 和产品 ID 可以是多个，id 之间采用逗号分隔，如果本次不是下单行为，则数据采用 nu
spark 启动显示报错 hadoop spark 大数据
2023-03-14 21:18

回答 1 已采纳根据报错信息，似乎是找不到 "/usr/spark/master" 这个文件或目录。可能是你的路径设置有问题，或者是该路径下的文件或目录被删除或移动了。建议仔细查看路径设置和文件系统，确保路径设置正确
Spark pairRDD（键值对）操作：聚合、分组、连接、排序
2019-05-11 16:42

阿雅Yage的博客 Spark 为包含键值对类型的RDD 提供...我们通常从一个RDD 中提取某些字段（例如代表事件时间、用户ID 或者其他标识符的字段），并使用这些字段作为pair RDD 操作中的键。 1 Pair RDD的转化操作 Pair RDD 可以使用所...
【spark大数据】spark大数据处理技术入门项目--购物信息分析
2022-06-14 19:53

马武寨山的猴子的博客 spark入门实战项目，加深对处理流程的理解。
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

spark分组排序提取前N个值

4条回答 默认 最新

悬赏问题

4条回答默认最新