咨询一个关于spark归一化，然后排序的问题

请以上述 3、&4、（题目数字编号）任务的输出结果作为输入数据源，编
写 Spark 程序从城市的酒店总订单、用户评分及评论数角度综合分析并
获得城市的受欢迎程度排名，取最受游客欢迎的 5 个城市形成新表
table3_5，（权重分配说明：归一化城市酒店总订单 0.6，归一化用户评分
0.2，归一化评论数 0.2。）输出至 HDFS 文件系统中/hotelsparkhive4。

题目是上述这样，前面的已经分析出来了。我想问下这道题的具体思路，如何在spark中
根据权重值，来进行排名呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大大怪打LZR 2023-08-13 21:47
关注
这道题目要求使用Spark程序对城市的酒店数据进行综合分析，从酒店总订单、用户评分以及评论数的角度，计算城市的受欢迎程度，并按照指定的权重对城市进行排名。最终，需要输出最受游客欢迎的5个城市。

下面是解题的思路：

读取数据： 首先，您需要从数据源中读取城市的酒店总订单、用户评分和评论数数据。

数据预处理： 在处理数据之前，您可能需要对数据进行清洗和转换。确保数据格式的一致性和准确性。

归一化数据： 对酒店总订单、用户评分和评论数进行归一化处理。归一化可以将不同指标的数据映射到相同的范围，以便于综合分析。

计算综合得分： 根据权重分配，使用归一化后的数据计算每个城市的综合得分。将酒店总订单乘以0.6，用户评分乘以0.2，评论数乘以0.2，然后将它们相加。

按得分排名： 使用Spark的排序操作，将城市按照综合得分进行降序排序。这将生成一个排序后的城市列表。

选取前5名： 从排序后的城市列表中选取前5个城市，这些城市将是最受游客欢迎的城市。

输出结果： 将最终的结果输出到HDFS文件系统中。

以下是一个可能的Spark程序的伪代码示例，用于实现上述思路：

from pyspark.sql import SparkSession from pyspark.sql.functions import col # 创建Spark会话 spark = SparkSession.builder.appName("HotelAnalysis").getOrCreate() # 读取数据源 hotel_data = spark.read.csv("path_to_hotel_data.csv", header=True) rating_data = spark.read.csv("path_to_rating_data.csv", header=True) comment_data = spark.read.csv("path_to_comment_data.csv", header=True) # 数据预处理（省略） # 归一化数据 normalized_hotel_data = hotel_data.withColumn("normalized_orders", col("orders") / max_orders) normalized_rating_data = rating_data.withColumn("normalized_rating", col("rating") / max_rating) normalized_comment_data = comment_data.withColumn("normalized_comments", col("comments") / max_comments) # 计算综合得分 combined_data = normalized_hotel_data.join(normalized_rating_data, on="city").join(normalized_comment_data, on="city") combined_data = combined_data.withColumn("combined_score", col("normalized_orders") * 0.6 + col("normalized_rating") * 0.2 + col("normalized_comments") * 0.2) # 按得分降序排名 ranked_cities = combined_data.orderBy(col("combined_score").desc()) # 选取前5名 top_5_cities = ranked_cities.limit(5) # 将结果输出到HDFS top_5_cities.write.csv("hdfs://path_to_output_directory") # 关闭Spark会话 spark.stop()

请注意，这只是一个伪代码示例，您需要根据实际情况进行适当的修改和调整。此外，确保您的数据预处理和归一化步骤是正确的，并且您的数据源文件路径是正确的。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

一个关于spark的问题 hadoop spark 有问必答
2023-03-08 19:48

回答 2 已采纳连接被拒绝，说明服务不通。检查对应服务是否有启动。
在Java web中怎么提交一个spark job任务？ java spark
2018-11-06 15:11

回答 3 已采纳 spark使用命令行提交任务使用场景很窄，一般情况下提交任务、kill任务、查询任务执行状态都是使用http接口，在这种场景下你应该使用livy。你需要安装livy，才可以用，具体安装文档以及使用文档
spark-sql如何按用户对time排序，序号为新增的一列 java spark sql
2022-09-21 19:05

回答 2 已采纳 spark基本数据处理之推荐数据movielens_小李飞刀李寻欢的博客-CSDN博客
spark如何进行聚类可视化_利用spark做文本聚类分析
2021-01-13 23:56

Creamy络的博客聚类分析什么是聚类分析？《数据挖掘导论》是给出了这样的定义：聚类...想像有这样的一个情景：用户每天都会通过搜索引擎去查询他/她所感兴趣的信息，而我们希望能够根据用户的搜索词去细分目标用户群体，从而分析不...
关于spark的问题 spark
2022-04-06 11:24

回答 1 已采纳 vim 打开/etc/shadow文件：显示行号：set nu取消行号：set nonu 以上
一个关于sparksql的问题 spark sql 大数据有问必答
2023-03-04 10:53

回答 2 已采纳 “Devil组”引证GPT后的撰写： val resultbm1 = spark.sql("SELECT time, ROUND(AVG(price), 2) AS Aprice FROM cars
一个关于sparksql语句的问题 spark sql 大数据有问必答
2023-01-19 12:45

回答 2 已采纳把round函数改成round(AVG(price),2)试试,
基于Spark的KNN算法的非并行化与并行化实现
2022-05-20 17:15

隆华爱读书我不爱读书所以我没书读的博客具体过程简单而言，就是输入一个待预测样本，计算它与每个训练样本的距离，获得离它最近的K个训练样本实例，然后根据这K个训练样本实例的分类号，用某种“投票”模型计算得到该待预测样本的分类号，或者直...
这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 19:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
Spark SQL应用通过Java代码提交至Yarn集群上 java spark
2022-10-11 15:35

回答 1 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：Spark SQL 通过什么来实现？
关于spark离线程序读写本地文件的问题 java spark
2018-09-11 10:53

回答 4 已采纳读取数据文件的接口不是有SparkContext的textFile么，读取本地文件只是需要指明file://即可（但是要保证所有节点本地上都有该文件，路径一致），所以一般不会去读取本地的数据文件，
Spark案例实战教程
2021-02-17 12:43

GoAI的博客 Spark案例实战实战代码参考：GitHub - GoAlers/Bigdata_project: 电商大数据项目-推荐系统(java和scala语言)
关于spark在Windows环境下的配置启动问题 hadoop java
2023-02-16 23:56

回答 3 已采纳如果您在 Windows 平台上安装了 Spark，并且无法找到 spark 和 spark-shell 命令，可以尝试以下几个方法：检查环境变量：请确保将 Spark 的安装目录添加到系统的 PA
Spark
2023-02-20 10:18

升级打怪的辉哥的博客 spark
spark基础知识
2022-05-21 11:46

识醉沉香的博客本质：一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可分成多个分区，每个分区就是一个数据集片段。 // 创建一个spark config val sparkConf = new SparkConf().setMaster(config(...
没有解决我的问题, 去提问

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记

咨询一个关于spark归一化，然后排序的问题

1条回答 默认 最新

悬赏问题

1条回答默认最新