求解答！可以把我看看吗

某高校为大数据相关专业的学生开设了多门课程，为了能够实时地查找出目标课程，需要在IntelliJIDEA 中使用Spark Streaming 编程实现从一台服务器的8888端口上接收课程数据，课程数据需手动在服务器的8888端口输入，输入的课程数据如表6-7所示，每一条数据有2个字段，分别表示课程编号和课程名称，以空格分隔。现目标课程是“Hadoop”和“Spark”，需要查询两门课程及对应课程编号。
表6-7 输入的课程数据
121 Hadoop
123 Java
069 HBase
223 Spark
078 Hive
3.实现思路及步骤
(1) 在 IntelliJ IDEA 中配置好 Spark Streaming 开发环境
(2) 启动 IntelliJ IDEA, 并进行 Spark Streaming 编程。
(3)在一台服务器(master节点) 中查看是否安装了 nc软件，若没有安装 nc软件，则先安装 nc软件。
(4) 在 master节点上用 nc启动8888端口。
(5)在 IntelliJ IDEA 中使用socketTextStream 监听8888端口, 获取数据。
(6)使用map()方法将每一条数据以空格分割，并转化成“(课程名称，课程编号)”的形式。
(7)创建数组, 将要查找的“Hadoop”和“Spark”两门课程标记为 true, 形式如“("Hadoop", true)”, 并使用 parallelize 把数组转化成RDD。
(8)使用leftOuterJoin()方法对步骤(6)得到的 RDD 数据与步骤(7)得到的 RDD数据进行左外连接，最终形成“(课程名称，(课程编号，true))”形式的数据。
(9) 使用getOrElse 函数判断数据是否含有“true”字段, 并使用filter 把含有“true”的数据筛选出来。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-04-19 11:30

关注

引自免费微信小程序：皆我百晓生

首先，你需要确保已经在IntelliJ IDEA中配置好了Apache Spark的开发环境。如果你还没有设置，可以参考官方文档配置IntelliJ IDEA。接下来，按照以下步骤编写Spark Streaming程序来解决这个问题：

打开IntelliJ IDEA并创建一个新的Scala项目。
添加Spark依赖到项目的build.sbt文件中（如果你使用的是SBT构建系统）：

libraryDependencies += "org.apache.spark" %% "spark-core" % "3.3.0"
libraryDependencies += "org.apache.spark" %% "spark-streaming" % "3.3.0"

或者如果你使用Maven，添加到pom.xml文件中：

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.3.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.12</artifactId>
        <version>3.3.0</version>
    </dependency>
</dependencies>

创建一个新的Scala源码文件，例如CourseFinder.scala，然后开始编写代码：

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._

object CourseFinder {
  def main(args: Array[String]): Unit = {
    // 设置Spark配置
    val conf = new SparkConf().setAppName("CourseFinder").setMaster("local[*]")
    val ssc = new StreamingContext(conf, Milliseconds(1000))

    // 安装nc软件并启动监听8888端口（这一步应该在服务器上完成）
    // 在master节点运行：sudo apt-get install netcat || yum install ncat
    // 在master节点运行：nc -lk 8888

    // 创建socketTextStream监听8888端口
    val lines = ssc.socketTextStream("localhost", 8888)

    // 解析每一行数据，转换为(课程名称, 课程编号)格式
    val courses = lines.map(line => line.split(" ").map(_.trim)).map(p => (p(1), p(0)))

    // 创建包含待查找课程及其状态的RDD
    val searchCourses = Array(("Hadoop", true), ("Spark", true)).toDF("courseName", "found")

    // 左外连接查找课程
    val joined = courses.leftOuterJoin(searchCourses).select($"courseName", $"found".as("status"))

    // 过滤出找到的课程
    val filtered = joined.filter($"status".isin(true))

    // 输出结果
    filtered.print()
    
    // 启动StreamingContext
    ssc.start()
    ssc.awaitTermination()
  }
}

在IntelliJ IDEA中编译并运行这个程序。注意，这个程序会持续运行直到你手动停止它。当在服务器的8888端口输入课程数据时，程序会过滤出包含"Hadoop"和"Spark"的课程。
确保你已经在服务器上正确安装了nc软件并启动了8888端口的监听服务。然后可以在命令行中向服务器发送课程数据，例如：

echo "121 Hadoop" | nc localhost 8888
echo "123 Java" | nc localhost 8888
echo "069 HBase" | nc localhost 8888
echo "223 Spark" | nc localhost 8888
echo "078 Hive" | nc localhost 8888

结果会在IntelliJ IDEA的控制台输出，显示找到的课程名称及其状态。

注意：这个示例代码假设你已经有一个正在运行的Spark集群。如果是在本地运行，只需将conf.setMaster("local[*]")保持不变。如果你在远程集群上运行，需要将conf.setMaster("local[*]")替换为集群的实际地址，例如conf.setMaster("spark://your-master-node:7077")。

编辑记录

报告相同问题？

关注问题

怎样才能学好一门编程语言？ python
2022-04-20 20:07

回答 3 已采纳提升能力的话我的看法前一位答主的看法有点区别，既然你已经了解了基本的语法，而且pyhon本来就更多的依靠导入的包，我认为应该尝试着定一个大点的目标，比如说编写一个游戏、爬一些有意思的网站等等。主要是得
httpclient的疑问求解答！
2010-12-06 17:18

回答 1 已采纳你多线程是用httpclient用错了，如果你需要多线程使用httpclient的话，请看这个例子 [code="java"] public class ClientMultiThread
关于#python#的题目，请各位专家解答！ c语言 java python 有问必答
2021-10-06 18:48

回答 1 已采纳 9 class class1(): def __init__(self,num): self.num=num def function1(self): r
编程思维之与人类语言的思维差异(新手必看)
2021-05-10 12:44

herosunly的博客很大程度上是由于编程语言和人类语言(学名叫做自然语言)之间存在着很大的思维差异。为了帮助大家理解，先举个栗子，老婆对老公发信息说：下班买几个苹果回来，如果看到西瓜，就买一个回来。不知道大家看到这句...
代码有两处没看明白，达人帮助解答下，谢谢！！！
2008-11-24 10:13

回答 3 已采纳你可以看一下1.5里面的集合类在创建的时候经常有或者就是说这个集合只能装泛性内的对象（其实是通过编译时实现的，虚拟机没有多任何功能）而.class是获得类对象什么是类对象？就是
请问英语不好的人，学习编程的时候，如果记忆关键字以及某些接口和实现类？ java 开发语言
2021-08-30 08:33

回答 2 已采纳编程中常用的单词并不多，不需要特别记忆，用着用着就熟悉了而且很多IDE自带智能感知，记住前几个字母就行，除非你编程过程中，从来不适用IDE，用记事本，我想你不会这样做的。
好头疼的问题！我不明白！
2011-12-21 16:39

回答 1 已采纳 select busineType,userName,count(userName) from table2,table3 where table2.taskid=table3.id group
GPT 吞噬一切！我们还需要编程语言吗？
2023-07-18 20:59

唐门教主的博客 AGI 的未来，究竟属于 Rust 还是 Mojo？或者我们还需要编程语言吗？
查看某著名开源框架源码后看到的一个不理解的地方，求解答
2011-05-20 11:03

回答 3 已采纳因为final类型的只能赋值一次
各位高手请帮我看看这道题（一个java新手）
2008-12-05 16:52

回答 2 已采纳你只需要明白这一点就可以了，static是在类加载的时候就执行了，并且按照从上到下的顺序执行的，这样就能理解了
python中，strip()用来做什么，errmsg是关键字还是函数，用来做什么 python 开发语言
2021-12-17 17:25

回答 2 已采纳 strip用来删除开头、结尾的字符，类似C#语言里的trim函数strip函数可以带参数，比如写a.strip(b)，那么把a开头和结尾包含字符串b的部分全部删除（重复多次也一并删除）如果不填参数，默
自学编程的 6 个致命误区
2020-04-24 09:14

沉默王二的博客本篇文章来和大家聊聊自学编程中的一些误区——这是我在 B 站上看了羊哥的一期视频后有感而发的文章。因为确实有很多读者也曾私信问过我这些方面的问题，很有代表性，所以我就结合自己的亲身体会来谈一谈，希望对小...
vs2022多文件调试时系统找不到指定文件，如何解决？(语言-c++) c++ 学习方法
2022-09-18 22:06

回答 1 已采纳编译时连接失败，自然没有exe文件我猜你的源.cpp和源1.cpp里都有个main函数，这导致重复编译失败了，把其中一个改名。vc的一个项目里只能有一个main，他是把一个项目里的所有cpp文件都要
如何设计一门计算机编程语言
2022-06-02 18:06

OPPO内核工匠的博客一、概述计算机编程语言顾名思义，是用来和计算机进行沟通的语言。计算机编程语言伴随着计算机的发明，作为计算机领域各种软件的基础，不断推动着计算机技术的发展。本文中，将主要关注设计开发一种计算机编程语言，...
涨姿势！2020最好的 10 大国外编程学习网站
2020-08-02 20:22

JavaGuide的博客简而言之，软件开发是一个快速发展的领域，在这个领域找工作相对不会那么费劲，除此之外，还有大量的学习资源可以学习，以下就是我最喜欢的编程学习网站： 1.Codegym Codegym是一个以Java为中心的平台，它比其
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月19日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

求解答！可以把我看看吗

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新