头歌 rdd的创建 -scala

任务描述
相关知识
集合创建RDD
reduceByKey()
编程要求
测试说明
任务描述
本关任务：计算并输出各个学生的总成绩。

相关知识
为了完成本关任务，你需要掌握：1.集合并行化创建RDD，2.reduceByKey算子、foreach算子

集合创建RDD
Spark会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是一个RDD。相当于是，集合中的部分数据会到一个节点上，而另一部分数据会到其他节点上。然后就可以用并行的方式来操作这个分布式数据集合，即RDD。

val list=List(1,2,3,4,5)
val stu=sc.parallelize(list,3)//参数1：Seq集合，必须。参数2：分区数，默认为该Application分配到的资源的CPU核数
//val stu=sc.makeRDD(list,3) //和parallelize用法一样。（该用法可以指定每一个分区的preferredLocations）。
val sum=stu.reduce(+)
println(sum)
输出：15

reduceByKey()
对元素为RDD[K,V]对的RDD中Key相同的元素的Value进行聚合

val list = List(("spark",2),("hive",1),("hive",2))
val stuRDD = sc.makeRDD(list)
stuRDD.reduceByKey(+)
输出：
(spark,2)
(hive,3)

foreach() ：对数据集中每一个元素运行函数

val list = List(1,2,3,4)
val stuRDD = sc.makeRDD(list)
stuRDD.foreach(print)//对这个RDD进行遍历输出
输出：1234

编程要求
根据提示，在右侧编辑器begin-end处补充代码，计算并输出各个学生的总成绩。

("bj",88)： bj指学生姓名，88指学生成绩。
测试说明
平台会对你编写的代码进行测试：

预期输出：

(bj,254)
(sh,221)
(gz,285)

开始你的任务吧，祝你成功！

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object Student {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local")
val sc = new SparkContext(conf)
val arr1=Array(("bj",88),("sh",67),("gz",92))
val arr2=Array(("bj",94),("sh",85),("gz",95))
val arr3=Array(("bj",72),("sh",69),("gz",98))

//第一步：先将数组进行合并


//第二步：创建RDD


//第三步：把相同key的进行聚合


//第四步：输出


sc.stop()

}
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
❀lee 2022-04-28 11:25
关注
这也太简单了吧，老哥

解决 1

无用 13
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

头歌-RDD的创建 -Scala
2025-04-26 13:28

睡到自然醒吧的博客根据提示，在右侧编辑器begin-end处补充代码，按每位老师出现的次数降序，输出老师姓名和出现次数。根据提示，在右侧编辑器begin-end处补充代码，计算并...第2关、读取外部数据集创建RDD。第1关、集合并行化创建RDD。
【头歌】RDD的创建 -Scala 答案
2024-07-28 12:00

Seven_Two2的博客第一关集合并行化创建RDD 第二关读取外部数据集创建RDD
RDD的创建 -Scala
2022-06-14 13:54

小kamil的博客第1关集合并行化创建RDD 代码如下： importorg.apache.spark.rdd.RDD importorg.apache.spark.SparkContext importorg.apache.spark.SparkConf objectStudent{ defmain(args:Array[String]):Unit={ ...
RDD的创建 -Scala educoder
2022-04-22 10:46

南风不竞~~的博客第1关：集合并行化创建RDD import org.apache.spark.{SparkConf, SparkContext} object Student { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName(this.getClass....
大数据从入门到实战 - RDD的创建 -Scala
2021-01-14 20:19

发芽ing的小啊呜的博客 大数据从入门到实战 - RDD的创建 -Scala 一、关于此次实践 1、实战简介 2、全部任务二、实践详解 1、第1关：集合并行化创建RDD 2、第2关：读取外部数据集创建RDD 叮嘟！这里是小啊呜的学习课程资料整理。好记性...
头歌：RDD的创建 -Java
2024-04-29 00:48

空心木偶☜的博客 Spark会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是一个RDD。(1)mapToPair：此函数会对一个RDD中的每个元素调用f函数，其中原来RDD中的每一个元素都是T类型的，调用f函数后会进行一定的操作把...
Spark算子-Scala版本头歌答案
2022-12-29 10:18

4师傅的博客 Spark算子-Scala版本头歌答案
Spark算子--Scala版本(头歌)
2022-06-14 14:32

小kamil的博客 importorg.apache.spark.rdd.RDD importorg.apache.spark.{SparkConf,SparkContext} objectEduCoder1{ defmain(args:Array[String]):Unit={ valconf=newSparkConf().setAppName("educoder1").setMaster...
RDD的创建-Python
2023-11-11 22:02

咖啡不提神的博客用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。（2）一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的，每个RDD都会实现compute...
SparkStreaming--scala
2024-07-14 17:25

柔雾的博客 reduce(func) 通过使用函数func（它接受两个参数并返回一个）聚合源DStream的每个RDD中的元素，返回单元素RDD的新DStream。join(otherStream, [numTasks]) 当在（K，V）和（K，W）对的两个DStream上调用时，返回（K...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
请提交代码 4月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月27日

头歌 rdd的创建 -scala

2条回答 默认 最新

问题事件

2条回答默认最新