spark-submit+python脚本执行报错

一、问题：执行spark-submit+python脚本后报各种错误。

目的：，通过执行上面spark-submit命令，使spark操作hive，在hive指定数据库生成数据表及数据。
xxx.py脚本部分内容是

from pyspark.sql import SparkSession
....................
use_database='''use hivetest01'''
......
spark=SparkSession.builder.appName().enableHiveSupport().getOrCreate()

二、实验环境

外置hive：apache-hive-3.1.3-bin.tar.gz
spark带hadoop的：spark-3.2.1-bin-hadoop3.2.tgz
hadoop：hadoop-3.2.4.tar.gz
其他包放spark的jars：spark-hive_2.12-3.2.1.jar、spark-hive-thriftserver_2.12-3.2.1.jar、spark-sql_2.12-3.2.1.jar

二、报错集合

1、以为是python问题。
解决：手贱卸载了python，然后yum什么都没了。又重新安装在/usr/python2.7.6这目录，做了软连接到/usr/bin。yum pip也自己装了。

2、再次执行脚本，报下面错。不知道是不是spark和什么冲突；三天无法解决，都是这错误。快崩溃了

3、输入pyspark，也报错。感觉from pyspark.sql import SparkSession 无法导入。

另外，依赖问题，我不想下图文linux然后安装idea，用了sbt打包也没鸟用。。
所以请问黑框的linux，怎么解决实验的依赖问题？？

不知道这些是一个原因造成的，还是多个原因。很崩溃~~

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CF2301_77400554X 2023-05-16 09:46
关注
引用chatgpt部分指引作答：
在处理依赖问题之前，先解决报错的问题。根据你提供的错误信息，可能是由于Python版本的问题导致的语法错误。Spark 3.0+版本需要使用Python 3.x，而你当前的环境使用的是Python 2.7.6。

建议按照以下步骤进行操作：
先检查python版本，安装路径，修改你的脚本，将python改为python3，确保使用的是Python 3.x版本。例如：

from pyspark.sql import SparkSession .................... use_database = '''use hivetest01''' ...... spark = SparkSession.builder.appName().enableHiveSupport().getOrCreate()

关于依赖问题，你可以尝试使用--jars选项来指定需要加载的额外JAR包。例如，假设你的额外JAR包位于/path/to/extra.jar，可以在spark-submit命令中添加以下参数：

spark-submit --jars /path/to/extra.jar your_script.py

这样Spark会加载指定的JAR包，以满足你的依赖需求。

另外，确保你的依赖包与Spark版本兼容。如果你的Spark版本为3.2.1，可以下载相应版本的Hive相关依赖包。在你提供的信息中，已经有了一些Hive相关的JAR包，可以尝试使用它们。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

spark-submit提交py文件，一直提示资源不足~~ hadoop python spark
2021-07-16 08:59

回答 1 已采纳第一种：是spark节点的内存满了，加大执行内存，内存可以在spark的配置文件—>spark-env.sh中可以看到。这个配置文件路径在：/usr/local/spark-2.4.0-bin-
为什么要用spark-submit提交任务？ spark
2022-09-16 19:01

回答 1 已采纳因为spark是计算引擎，你是将你的代码提交到spark上运行，不是运行spark程序
我想用spark-submit提交个springboot的jar包，指定运行main函数是遇到了问题 spark
2018-01-04 10:48

回答 2 已采纳 1、临时解决方法：将spark/work目录下的文件手动删除，之后重新提交application就可以了。 2、修改spark配置文件：在spark-env.sh中加入如下内容 SPAR
spark运行python脚本_spark-submit提交python脚本过程记录
2020-12-09 13:04

weixin_39982269的博客最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数1.spark-submit参数--masterMASTER_URL:设置...
spark-submit命令运行jar包报空指针，Java -jar命令可以运行。 jar java spark
2018-05-08 10:49

回答 1 已采纳可以试试hadoop jar xxx(main)
spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 17:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark提交python程序_spark-submit提交python脚本过程记录
2020-12-10 13:48

weixin_39917811的博客最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数1.spark-submit参数--masterMASTER_URL:设置...
为什么在spark启动了history-service没报错，可是就是没这个节点 spark 有问必答
2021-11-11 21:18

回答 2 已采纳你是缺少什么配置了吧，参考一下我的文档
Atlas关联spark插件编译报错大数据
2023-01-17 10:39

回答 3 已采纳这个是github上个人维护的spark-aql勾子程序,你的问题应该是设置高版本的spark和scala,造成了一些版本冲突,而且高版本中许多类都更新过了,当然找不到.(1)<import o
spark 启动显示报错 hadoop spark 大数据
2023-03-14 21:18

回答 1 已采纳根据报错信息，似乎是找不到 "/usr/spark/master" 这个文件或目录。可能是你的路径设置有问题，或者是该路径下的文件或目录被删除或移动了。建议仔细查看路径设置和文件系统，确保路径设置正确
spark-submit提交python脚本过程记录
2019-07-23 16:27

hgz_dm的博客最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数 1.spark-submit参数 --masterMASTER_URL:...
Linux上安装了Spark但无法运行，运行报错 hadoop spark 大数据
2023-04-21 16:19

回答 2 已采纳这篇博客: spark安装踩坑中的 2.JNI error 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读: 报错：A JNI error has occurred, pleas
spark python 上传代码包_spark-submit提交python脚本过程记录
2021-02-11 10:08

Blinkfire的博客最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数1.spark-submit参数--masterMASTER_URL:设置...
python提交spark,记一次spark-submi 提交python脚本遇到的问题
2021-04-27 06:36

影歌小队长的博客一、通过spark-submit 提交报错如下 yarn运行模式spark用的版本是2.4.0是支持pandas_udf的，而且通过pyspark的shell命令行一条条执行都是没有问题的但是将代码作为文件用spark submit提交就报这个错误二、解决办法...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月16日

悬赏问题

¥15 c#转安卓 java html
¥15 os.listdir文件路径找不到
¥15 使用gojs3.0，如何在nodeDataArray设置好text的位置，再go.TextBlock alignment中进行相应的改变
¥15 psfusion图像融合指标很低
¥15 银河麒麟linux系统如何修改/etc/hosts权限为777
¥50 医院HIS系统代码、逻辑学习
¥30 docker离线安装mysql报错，如何解决？
¥15 构建工单的总账影响在哪里查询或修改
¥15 三个简单项目写完之后有重赏之后联系我
¥15 python报内存不能read错误