pyspark spark2.3.3 hadoop2.7 py4j.protocol.Py4JJavaError

遇到的问题有两个

先上代码：

from pyspark import SparkConf, SparkContext

conf = SparkConf()\
    #.setMaster("local[2]").setAppName("spark0301")

sc = SparkContext(conf=conf)

data = [1,2,3,4,5]
disData = sc.parallelize(data)
disData.collect()


sc.stop()

一.window环境下

图片说明

二.pyspark 单机模式下

./spark-submit --master local[2] --name spark0001 /root/datas/text1.py
我运行的结果

图片说明

正常别人运行的结果

图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-08-08 15:11
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

从您提供的信息来看，问题可能出在Spark与Python交互时的异常处理方面。根据您的描述，您尝试在PySpark环境中使用sc.parallelize()方法来并行化数据，并且遇到了IllegalArgumentException错误。

首先，请确保您安装了正确的版本的PySpark和Python。对于PySpark，您可以参考以下命令来安装：

pip install pyspark pip install py4j

然后，在您的项目中，可以按照以下步骤设置环境变量以确保正确地将PySpark和Python连接起来：

打开终端或命令提示符。

输入以下命令以创建环境变量（如果尚未创建）：

export SPARK_HOME=<路径到PySpark安装目录> export PYSPARK_PYTHON=<路径到Python解释器>

确保替换 <路径到PySpark安装目录> 和 <路径到Python解释器> 为实际的路径。

检查Python解释器是否已正确添加到系统搜索路径中。如果您正在使用Anaconda或其他虚拟环境，请确保在~/.bashrc文件中包含以下内容：

export PATH=$PATH:$SPARK_HOME/bin

如果您没有找到这些环境变量，请通过编辑.bashrc文件或~/.bash_profile文件手动添加它们。

接下来，打开一个新的Python脚本，例如test_spark.py，并在其中测试sc.parallelize()方法：

import pyspark from pyspark.sql import SparkSession conf = SparkConf().setAppName('test_spark').setMaster('local[*]') spark = SparkSession.builder.config(conf=conf).getOrCreate() data = [1, 2, 3, 4, 5] result = spark.parallelize(data) print(result.collect())

运行此脚本后，应看到数据被成功并行化并打印出来。

尝试再次执行您的原始代码片段。这应该解决您遇到的异常。

希望以上信息对您有所帮助！如果您还有其他问题，请随时提问。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

老卫带你学---pyspark运行报错
2019-11-13 21:57

老卫带你学的博客最近老卫在玩spark，安装完pyspark之后（pyspark=2.3.2；python=3.7.0）可是在运行代码的时候出现了如下报错： WARNING: An illegal reflective access operation has occurred WARNING: Illegal reflective access...
Pyspark 读 DataFrame 的使用与基本操作
2020-12-20 11:19

苏学算法的博客一、安装基于 mac 操作系统安装 jdk jdk 下载地址安装 pyspark pip install pyspark 二、基本操作 2.1 建立SparkSession对象一切操作之前需要先建立一个SparkSession对象...spark = SparkSession.builder.ma
Apache Spark【从无到有从有到无】【编程指南】【AS4】使用关系查询处理结构化数据
2019-08-02 17:06

琴韵的博客 Spark SQL, DataFrames and Datasets Guide 本篇编程语言以java为主，其他请参考：官方文档 Spark SQL 1.概述 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为...
任务提交SparkSubmit源码解析
2020-04-16 13:49

Perkinl的博客 1. 前言反反复复捣鼓了很久，终于开始学习Spark的源码了，果不其然，那真的很有趣。...源码Spark 2.3.3 Scala 2.11.8 提交脚本 # 事先准备好的Spark任务(源码example LocalPi)基于local模式 b...
spark shell 删除失效_Spark任务提交源码解析
2020-11-21 20:20

weixin_39835792的博客 1. 前言反反复复捣鼓了很久，终于开始学习...基础mac系统基础环境如下：JDK 1.8IDEA 2019.3源码Spark 2.3.3Scala 2.11.8提交脚本# 事先准备好的Spark任务(源码example LocalPi)基于local模式bash spark-submit --cl...
常用python组件包
2020-05-08 14:41

jspython的博客基于python3.6安装的组件包列表 $ pip list Package Version ---------------------- ------------- aniso8601 2.0.0 asn1crypto 0.23.0 astroid 1.6.2 attrs ...
DSS部署-完整版
2022-03-10 20:51

沧海之巅的博客背景第二部分、准备虚拟机、环境初始化1、准备虚拟机2、环境初始化关闭防火墙关闭selinux关闭swap根据规划设置主机名在master添加hosts将桥接的IPv4...软件包第三部分、创建hadoop用户第四部分、配置JDK卸载原JDK步骤一...
Airflow2.2.5任务调度工具
2022-06-16 18:35

低调的代码的博客安装Airflow2.x-单机目标式安装Airflow2.x，而Airflow2.x的版本请依赖于python3高阶版本，但服务器中默认一般都是python2.7 2.1.配置airflow用户在root用户下操作 useradd airflow -m -s /bin/bash passwd airflow...
PySpark 大数据分析实用指南（一）
2024-07-20 00:19

绝不原创的飞龙的博客您不仅将学习如何使用 Spark 和 Python API 来创建高性能的大数据分析，还将发现测试、保护和并行化 Spark 作业的技术。本书涵盖了 PySpark 的安装和设置、RDD 操作、大数据清理和整理，以及将数据聚合和总结为有用...
DSS部署-12、DSS安装
2022-03-06 01:14

沧海之巅的博客 links默认使用python，建议安装python2 web的install.sh中，需要本地安装后，然后去掉nginx的安装，及防火墙的处理部分脚本修改全家中中conf的config.sh中的nginx端口为非8088 ，不能与yarn冲突一、使用前环境准备...
没有解决我的问题, 去提问

pyspark spark2.3.3 hadoop2.7 py4j.protocol.Py4JJavaError

1条回答 默认 最新

1条回答默认最新