pyspark数据分析

问题遇到的现象和发生背景

使用pyspark中的_map方法时，最后print（rdd2.collect（））时报错

遇到的现象和发生背景，请写出第一个错误信息

IndexError: tuple index out of range

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%


# 演示RDD的map成员使用方法

from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = 'D:/python/pytuon3.11.0/python.exe'

conf = SparkConf().setMaster('local[*]').setAppName('test_spark')
sc = SparkContext(conf=conf)

rdd = sc.parallelize([1, 2, 3, 4, 5])

def func(data):
    return data * 10

rdd2 = rdd.map(func)

print(rdd2.collect())

运行结果及详细报错内容

D:\python\pytuon3.11.0\python.exe D:\python·learn\pyspark_map.training.py 
22/12/08 10:51:16 WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/12/08 10:51:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Traceback (most recent call last):
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\serializers.py", line 458, in dumps
    return cloudpickle.dumps(obj, pickle_protocol)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 73, in dumps
    cp.dump(obj)
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 602, in dump
    return Pickler.dump(self, obj)
           ^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 692, in reducer_override
    return self._function_reduce(obj)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 565, in _function_reduce
    return self._dynamic_function_reduce(obj)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 546, in _dynamic_function_reduce
    state = _function_getstate(func)
            ^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 157, in _function_getstate
    f_globals_ref = _extract_code_globals(func.__code__)
                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle.py", line 334, in _extract_code_globals
    out_names = {names[oparg]: None for _, oparg in _walk_global_ops(co)}
                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle.py", line 334, in <dictcomp>
    out_names = {names[oparg]: None for _, oparg in _walk_global_ops(co)}
                 ~~~~~^^^^^^^
IndexError: tuple index out of range
Traceback (most recent call last):
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\serializers.py", line 458, in dumps
    return cloudpickle.dumps(obj, pickle_protocol)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 73, in dumps
    cp.dump(obj)
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 602, in dump
    return Pickler.dump(self, obj)
           ^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 692, in reducer_override
    return self._function_reduce(obj)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 565, in _function_reduce
    return self._dynamic_function_reduce(obj)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 546, in _dynamic_function_reduce
    state = _function_getstate(func)
            ^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle_fast.py", line 157, in _function_getstate
    f_globals_ref = _extract_code_globals(func.__code__)
                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle.py", line 334, in _extract_code_globals
    out_names = {names[oparg]: None for _, oparg in _walk_global_ops(co)}
                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\cloudpickle\cloudpickle.py", line 334, in <dictcomp>
    out_names = {names[oparg]: None for _, oparg in _walk_global_ops(co)}
                 ~~~~~^^^^^^^
IndexError: tuple index out of range

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "D:\python·learn\pyspark_map.training.py", line 17, in <module>
    print(rdd2.collect())
          ^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\rdd.py", line 1197, in collect
    sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
                                                        ^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\rdd.py", line 3505, in _jrdd
    wrapped_func = _wrap_function(
                   ^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\rdd.py", line 3362, in _wrap_function
    pickled_command, broadcast_vars, env, includes = _prepare_for_python_RDD(sc, command)
                                                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\rdd.py", line 3345, in _prepare_for_python_RDD
    pickled_command = ser.dumps(command)
                      ^^^^^^^^^^^^^^^^^^
  File "D:\python\pytuon3.11.0\Lib\site-packages\pyspark\serializers.py", line 468, in dumps
    raise pickle.PicklingError(msg)
_pickle.PicklingError: Could not serialize object: IndexError: tuple index out of range

Process finished with exit code 1

我的解答思路和尝试过的方法，不写自己思路的，回

使用findspark也会报错，手动序列化也不行

我想要达到的结果，如果你需要快速回答，请尝试 “付费悬赏”

这段代码应该将我定义的rdd中的数据每个乘以10后输出

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

python使用pyspark出现问题 python spark 大数据
2023-02-27 09:19

回答 4 已采纳就是提示里说的：系统找不到指定的路径。你检查下是那个路径值不对
pyspark没有启动成功什么原因 spark ubuntu 大数据
2022-10-08 16:43

回答 1 已采纳朋友你这个问题在于anaconda下载的pyspark和spark不兼容的情况。你可以看看我的这篇博客： https://blog.csdn.net/master_hunter/article/det
pycharm 使用pyspark 调用map算子一直报错 pycharm
2023-01-13 10:09

回答 5 已采纳看看是不是环境配置不正确导致的，请检查SparkContext是否正确配置，以及Python版本是否与Spark版本兼容。
PySpark数据分析基础：PySpark原理详解
2022-07-18 14:02

fanstuck的博客虽然这种架构保证了Spark核心代码的独立性，但是在大数据场景下，JVM和Python进程间频繁的数据通信导致其性能损耗较多，恶劣时还可能会直接卡死，所以建议对于大规模机器学习或者Streaming应用场景还是慎用PySpark，...
pyspark速度很慢，不知道是哪方面原因求解惑。 spark
2021-07-09 17:05

回答 1 已采纳你这是从mongodb把数读取出来然后再排序的么？可以看下取数的耗时。然后再spark webui上看看stage的时间消耗在什么地方了
pyspark中SparkContext出错 python spark
2022-10-25 19:42

回答 1 已采纳 SparkConf后面貌似少了括号()而且我记得一个setMaster(),一个是setAppNameconf = SparkConf().setMaster("local[*]").setAppNa
pyspark 报错 python未找到命令 python spark ubuntu
2018-05-05 09:37

回答 1 已采纳你直接输入python看能不能打开python命令。可能是python运行路径未设置上。
Python 与 PySpark数据分析实战指南：解锁数据洞见
2024-01-16 11:33

库库的里昂的博客前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站数据分析是当今信息时代中至关重要的技能之一。Python和PySpark作为强大的工具，提供了丰富的库和功能，使得...
Pyspark文件可以直接执行吗 python spark
2022-07-23 23:50

回答 1 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：pyspark出现错误
pyspark报错，'DataFrame' object has no attribute '_jdf' python spark
2022-04-29 16:55

回答 1 已采纳可以参考一下
关于#python#运行pyspark的问题，如何解决？ python spark
2023-03-15 23:20

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/688018这篇博客你也
《PySpark大数据分析实战》-06.安装环境准备
2023-12-13 22:45

wux_labs的博客大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第1节的内容：安装环境准备。
graphframes安装的详细步骤 python scala 数据挖掘
2019-11-16 12:45

回答 1 已采纳 $SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 这是linux的命令行，你是
人工智能-spark-基于Spark对全国历史气象数据的分析
2024-03-14 15:56

基于Spark对全国历史气象数据的分析用PySpark处理数据将所有文件读为一个****RDD rdd = sc.wholeTextFiles("file:///" + os.getcwd() + "/china/") **数据清洗 ** 去除字母， -9999等无效数据进行计算、排序等...
《PySpark大数据分析实战》-02.了解Hadoop
2023-12-11 22:27

wux_labs的博客大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容：了解Hadoop。
《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop
2023-12-16 16:57

wux_labs的博客大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容：Spark on YARN模式安装Hadoop。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月8日

悬赏问题

¥100 如何寻找到黑客帮助，愿意付丰厚的酬劳
¥15 java代码写在记事本上后在cmd上运行时无报错但又没生成文件
¥15 关于#python#的问题：在跑ldsc数据整理的时候一直抱这种错误，要么--out识别不了参数，要么--merge-alleles识别不了参数(操作系统-linux)
¥15 PPOCRLabel
¥15 混合键合键合机对准标识
¥100 现在不懂的是如何将当前的相机中的照片,作为纹理贴图,映射到扫描出的模型上
¥15 魔霸ROG7 pro,win11.息屏后会显示黑屏,如图，如何解决？(关键词-重新启动)
¥15 有没有人知道这是哪里出了问题啊？要怎么改呀？
¥200 C++表格文件处理-悬赏
¥15 Windows Server2016本地登录失败

pyspark数据分析

问题遇到的现象和发生背景

遇到的现象和发生背景，请写出第一个错误信息

用代码块功能插入代码，请勿粘贴截图。 不用代码块回答率下降 50%

运行结果及详细报错内容

我的解答思路和尝试过的方法，不写自己思路的，回

我想要达到的结果，如果你需要快速回答，请尝试 “付费悬赏”

0条回答 默认 最新

问题事件

悬赏问题

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

0条回答默认最新