用spark分析rdd函数统计数量，但是有些语句能够运行出结果有些却不行，请问怎么解决

分析代码


import os

from pyspark import SparkConf
from pyspark.sql import SparkSession, types
os.environ['PYSPARK_PYTHON'] = "C:\\Users\\Sam\\anaconda3\\python.exe"

if __name__ == '__main__':
    #初始化
    conf = SparkConf().setAppName('work').setMaster('local[*]')
    spark = SparkSession.builder.config(conf=conf).getOrCreate()
    sc = spark.sparkContext
    sc.setLogLevel('WARN')

    #----------苏菲------------------------
    #加载数据
    rdd = sc.textFile('sf01_data.csv')

    #数据清洗  /去除缺失值/去除第一行字段名称/去除重复值
    rdd = rdd.map(lambda x: x.split(','))\
        .filter(lambda x: len(x) == 10)\
        .filter(lambda x: x[0] != "sf_guid")
    #rdd.foreach(print)
    #rdd.saveAsTextFile("./sufei_data")

    #1. 苏菲的评论年份特征-折线图-长    #选取时间这一列并获取年份信息/进行统计个数/通过年份进行排序，更加直观
    print("------------------------")
    print("苏菲的评论日期特征")
    rdd1 = rdd.map(lambda x: (x[3][:4], 1))\
        .reduceByKey(lambda x, y: x + y)\
        .sortByKey()

    rdd1.foreach(print)

    #2. 苏菲的评论时间特征-折线图-长
    print("------------------------")
    print("苏菲的评论时间特征")
    rdd2 = rdd.map(lambda x: ((x[3].split(" ")[1][:2]), 1))\
        .reduceByKey(lambda x,y: x+y)

    rdd2.foreach(print)

    #3.苏菲的评分特征-饼状图-正方形
    print("------------------------")
    print("苏菲的评分特征")
    rdd3 = rdd.map(lambda x: (x[5], 1)).reduceByKey(lambda x,y: x+y)
    rdd3.foreach(print)

    #4. 苏菲的客户端特征-扇形图-小
    print("------------------------")
    print("苏菲的客户端特征")
    rdd4 = rdd.map(lambda x: (x[6], 1)).reduceByKey(lambda x,y: x+y)
    rdd4.foreach(print)

    #5. 苏菲的用户评论地理位置-地理图
    print("------------------------")
    print("苏菲的用户评论地理位置")
    rdd5 = rdd.map(lambda x: (x[9], 1))\
        .reduceByKey(lambda x,y:x+y)\
        .sortBy(lambda x: x[1])
    rdd5.foreach(print)

    #6. 苏菲的产品不同颜色或款式统计-柱状图-长   #有些数据为空需去除/根据销量排序选择top5
    print("------------------------")
    print("苏菲的产品不同颜色或款式统计")
    rdd6 = rdd.map(lambda x: (x[4], 1))\
        .filter(lambda x: x[0] != '')\
        .reduceByKey(lambda x, y: x+y)\
        .sortBy(lambda x: -x[1]).take(5)

    for a in rdd6:
        print(a)

    #7.苏菲的评论周期
    print("------------------------")
    print("苏菲的评论周期")
    rdd7 = rdd.map(lambda x: (x[7], 1))\
        .reduceByKey(lambda x, y: x+y)\
        .sortBy(lambda x: -x[1])\
        .take(10)

    for b in rdd7:
        print(b)

运行结果

------------------------
苏菲的评论日期特征
------------------------
苏菲的评论时间特征
------------------------
苏菲的评分特征
------------------------
苏菲的客户端特征
------------------------
苏菲的用户评论地理位置
------------------------
苏菲的产品不同颜色或款式统计
('精选日夜组合68片', 1070)
('420mm夜用12片【4片/6片随机发】', 979)
('290mm 20片', 958)
('超值日夜组合100片', 836)
('日夜组合86片', 823)
------------------------
苏菲的评论周期
('4', 6078)
('3', 5933)
('5', 5071)
('6', 4668)
('7', 3976)
('2', 3928)
('8', 3452)
('9', 2885)
('1', 2728)
('10', 2481)

sf01_data.csv文件部分数据

sf_guid,sf_nickname,sf_content,sf_creationTime,sf_productColor,sf_score,sf_userClient,sf_days,sf_imageCount,sf_location
79dc24f4671602528a3cbe37a8025df8,鬼***鑫,京东物流发货速度快已经买了好多次了质量没问题有保障护舒宝大品牌值得信赖舒适度高透气性好耐用性强性价比很高,2024-02-18 23:08:37,超熟睡裸感肌 290mm 8片,5.0,4.0,31,4.0,北京
37c34f6e2e36f5fb81937c99ab84f2ce,s***7,这款卫生巾老牌子了一直是我信赖的品牌京东太方便了每次都是家里没用的了直接在京东自营店购买去超市的时间都省下来了太幸福了,2024-02-02 07:32:16,超熟睡柔棉感 350mm 8片,5.0,4.0,5,4.0,北京
5d31f15927f0d90cbf68704e76d47ec7,淡***n,平常都是用的护舒宝这次换个牌子试试一次性买了好几包多买就有优惠简直是太划算了而且比超市还便宜些特别喜欢京东的物流真是神速这么冷的天还下着雨还送来了真是喜欢啊,2024-02-21 23:27:39,超熟睡裸感肌 350mm 8片,5.0,4.0,1,3.0,湖北
0512fb700742a611c8d5c55da701a0cc,n***k,包装好物流快价格实惠比超市便宜多了实用性和颜值都非常的赞我很喜欢还会再来买的宝贝收到了质量很不错包装精致材质优秀比想象中好送礼自用非常合适下次继续购买,2024-02-18 22:09:36,超熟睡柔棉感 350mm 8片,5.0,4.0,34,3.0,天津
a295a342b228d68c3b6161970b3dadd5,古***3,好用一直买的品牌质量不错非常好长期回购很好很不错姨妈期量大苏菲不侧漏舒服实用用完再接着买一次囤好多了helliphellip,2024-01-28 17:13:35,柔棉纤巧 420mm 8片,5.0,4.0,11,2.0,贵州
4e69e0f487c719ea067a9952cdcaa0c1,小***a,夜用卫生巾首选苏菲350的长度很有安全感一整夜不怕侧漏睡的安心用的放心推荐给大家有活动价格一定要多囤几包,2024-01-28 13:46:06,超熟睡裸感肌 350mm 8片,5.0,2.0,5,2.0,广东
b071977aa0cbef0663bcfcccda86afcd,爱***E,自己一直用这个品牌透气性很好薄厚适中价格也合理是一款物美价廉值得信赖的大众品牌自认为性价比还算比较高值得信赖的产品,2024-01-28 09:20:02,柔棉纤巧 420mm 8片,5.0,4.0,24,2.0,河北
0b58f5e5e56683c1797c56a434992019,j***6,苏菲大品牌质量有保障就认准这个牌子了绵柔材质的很舒适质量很好用着放心很透气赶上活动买很合适送货也快值得购买,2024-02-01 23:31:11,超熟睡裸感肌 350mm 8片,5.0,4.0,4,2.0,北京
a5845d93f9d448426b84787b5aa47031,j***9,一直都用这个品牌还是很喜欢这款卫生巾的好用还不贵赶上京东搞活动更是很优惠很赞每次赶上京东搞活动都会购买一些京东的到货速度也是很快的一般当天下单转天就到货了,2024-02-06 23:29:08,超熟睡柔棉感 350mm 8片,5.0,2.0,1,3.0,天津
df1af82c1f874dac09ad6d85a98b370b,j***9,非常好用的卫生巾安睡一整晚赶上京东搞活动立刻下单购买很赞而且物流也是很快的一般当天下单转天就到货了还是很赞的不错的购物体验,2024-02-06 23:35:55,超熟睡柔棉感 290mm 10片,5.0,2.0,2,3.0,天津
bc7f361fd38f9994abf389eec0ae75ad,y***8,苏菲卫生巾国际大品牌质量非常好非常舒适而且不会侧漏价廉物美物流及时一次很好的购物体验还会再买,2024-02-09 17:32:24,柔棉纤巧 420mm 8片,5.0,4.0,1,2.0,上海
4b5afcd6da160fd3c277508b5df85894,晨***8,宝贝已经收到很满意质量很好包装精细日期很好价格实惠谢谢卖家谢谢物流谢谢快递员赞赞赞,2024-02-06 14:07:26,超熟睡裸感肌 420mm 8片,5.0,4.0,2,3.0,辽宁
de0507d55ff383773c2c326bb6184c85,硕***弟,很喜欢苏菲自从来这个之后一直都是选择苏菲厚款 薄款 日用 夜用 护垫都是用的苏菲在京东下单也特别快下单的第二天就会直接送到门了非常方便,2024-02-03 20:08:44,超熟睡柔棉感 350mm 8片,5.0,4.0,38,2.0,广东
59d6045cb559feebef9ebbaa8ed8391b,h***y,大品牌值得信赖京东物流也很给力服务很贴心服务很贴心非常不错的一次购物体验可以推荐给身边的朋友下次还会一如既往的支持与回购的,2024-02-15 12:50:09,超熟睡柔棉感 350mm 8片,5.0,2.0,1,2.0,新疆

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-03-15 23:49
关注
码字小白菜努力中晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

根据您提供的代码和问题描述，我发现您的代码中存在一些问题，导致有些语句无法执行并输出结果。

具体来说，您的代码中没有对RDD执行action操作的语句。在Spark中，RDD上的转换操作（例如map、filter、reduceByKey等）是惰性求值的，只有当执行action操作（如foreach、collect等）时，才会触发计算并输出结果。

为了解决这个问题，您可以参考以下解决方案：

在每个需要输出结果的RDD操作之后，添加一个action操作（如foreach、collect等），以触发计算并输出结果。

修改后的代码示例：

# 1. 苏菲的评论年份特征-折线图-长 print("------------------------") print("苏菲的评论日期特征") rdd1 = rdd.map(lambda x: (x[3][:4], 1))\ .reduceByKey(lambda x, y: x + y)\ .sortByKey() rdd1.foreach(print) # 添加action操作 # 2. 苏菲的评论时间特征-折线图-长 print("------------------------") print("苏菲的评论时间特征") rdd2 = rdd.map(lambda x: ((x[3].split(" ")[1][:2]), 1))\ .reduceByKey(lambda x,y: x+y) rdd2.foreach(print) # 添加action操作 # ... 其他RDD操作及对应的action操作

如果您希望将所有结果一次性输出到控制台或保存到文件中，可以使用collect()方法将所有结果收集到驱动程序中，然后进行遍历输出。

修改后的代码示例：

# 1. 苏菲的评论年份特征-折线图-长 print("------------------------") print("苏菲的评论日期特征") rdd1 = rdd.map(lambda x: (x[3][:4], 1))\ .reduceByKey(lambda x, y: x + y)\ .sortByKey() result1 = rdd1.collect() # 收集结果到驱动程序 for record in result1: print(record) # 2. 苏菲的评论时间特征-折线图-长 print("------------------------") print("苏菲的评论时间特征") rdd2 = rdd.map(lambda x: ((x[3].split(" ")[1][:2]), 1))\ .reduceByKey(lambda x,y: x+y) result2 = rdd2.collect() # 收集结果到驱动程序 for record in result2: print(record) # ... 其他RDD操作及对应的结果收集和遍历输出操作

综上所述，您可以按照上述两种方式之一来修改代码，以便正确执行并输出结果。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
1人已打赏

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Spark【RDD编程（四）综合案例】
2023-09-07 22:06

让线程再跑一会的博客 Spark RDD编程综合案例
05-SparkRDD原理和编程接口
2022-03-18 10:16

被数据处理的蜗牛的博客 1.弹性分布式数据集RDD 1.1.RDD概述 1.1.1.什么是RDD RDD（Resilient Distributed DataSet）弹性分布式数据集。是spark中最基本的数据抽象，是一个不可变的、可分区的、可并行计算的集合。 Resilient：数据可以选择...
Spark核心编程_RDD
2021-06-02 09:21

Yanko24的博客 Spark核心编程_RDD 1. RDD创建从集合（内存）中创建RDD 从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD val sparkConf = new SparkConf().setMaster("local[*]").setAppName(this.getClass....
Spark 核心编程RDD
2023-03-30 16:34

一抹鱼肚白的博客 RDD主要知识点
Spark编程基础
2024-04-06 10:10

wanglingli95的博客 RDD是一个容错的、只读的、可进行并行操作的数据结构，是一个分布在集群各个节点中的存放元素的集合，即弹性分布式数据集。
《Spark编程基础及项目实践》试卷及答案2套.pdf
2022-04-04 09:37

【Spark编程基础及项目实践】试卷涉及的知识点涵盖了Spark的核心概念、大数据处理、Scala语言基础以及Spark的部署和运行模式。以下是对这些知识点的详细解释： 1. **大数据的特征**：大数据通常具有Volume（大量）...
Spark 核心编程（RDD+累加器+广播变量）
2021-11-14 11:06

落花雨时的博客 Spark 核心编程概述一、RDD1.1 什么是RDD1.2 核心属性1.3 执行原理1.4 基础编程1.4.1 RDD创建1.4.2 RDD并行度与分区1.4.3 RDD转换算子(重点)Value类型:1) map2) mapPartitions3) mapPartitionsWithIndex4) flatMap5)...
基于spark 程序用scala统计淘宝商品数据分析
2023-11-09 19:58

db_yxy_2036的博客从Spark的上手到最后的项目，整个过程我一路磕磕绊绊的时常遇到一些奇怪的问题，但是好在本人寻找bug的能力还不错，都一一得到了解决，后半期学习结束了，但我还需要继续花时间去学习，尤其是Hadoop的知识点，结合...
Spark4：RDD实例
2022-05-29 15:19

是Yu欸的博客 Spark4：RDD实例一、词频统计实例二、键值对RDD1.创建键值对RDD2.键值对RDD转换操作①reduceByKey(func)②groupByKey()两者的区别③map④keys⑤values⑥sortByKey⑦mapValues(func)⑧join实例三、RDD数据读写一、...
Spark（二）：Spark的RDD
2021-08-08 13:36

郎er的博客 Spark 程序，一般都包含一个Driver Program用于运行main函数，在该函数中执行着各种各样的并行操作。其中在Spark中有重要的概念RDD。该RDD是一个带有分区的分布式数据集，将数据分布存储在Spark集群的各个节点。当对...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月15日
展开全部

用spark分析rdd函数统计数量，但是有些语句能够运行出结果有些却不行，请问怎么解决

2条回答 默认 最新

问题事件

2条回答默认最新