没时间了go 2023-05-16 08:35 采纳率: 100%
浏览 79
已结题

spark-submit+python脚本执行报错

一、问题:执行spark-submit+python脚本后报各种错误。

目的:,通过执行上面spark-submit命令,使spark操作hive,在hive指定数据库生成数据表及数据。
xxx.py脚本部分内容是

from pyspark.sql import SparkSession
....................
use_database='''use hivetest01'''
......
spark=SparkSession.builder.appName().enableHiveSupport().getOrCreate()
二、实验环境

外置hive:apache-hive-3.1.3-bin.tar.gz
spark带hadoop的:spark-3.2.1-bin-hadoop3.2.tgz
hadoop:hadoop-3.2.4.tar.gz
其他包放spark的jars:spark-hive_2.12-3.2.1.jar、spark-hive-thriftserver_2.12-3.2.1.jar、spark-sql_2.12-3.2.1.jar

二、报错集合

1、以为是python问题。
解决:手贱卸载了python,然后yum什么都没了。又重新安装在/usr/python2.7.6这目录,做了软连接到/usr/bin。yum pip也自己装了。

img

2、再次执行脚本,报下面错。不知道是不是spark和什么冲突;三天无法解决,都是这错误。快崩溃了

img

3、输入pyspark,也报错。感觉from pyspark.sql import SparkSession 无法导入。

img

另外,依赖问题,我不想下图文linux然后安装idea,用了sbt打包也没鸟用。。
所以请问黑框的linux,怎么解决实验的依赖问题??

不知道这些是一个原因造成的,还是多个原因。很崩溃~~

  • 写回答

5条回答 默认 最新

  • CF2301_77400554X 2023-05-16 09:46
    关注

    引用chatgpt部分指引作答:
    在处理依赖问题之前,先解决报错的问题。根据你提供的错误信息,可能是由于Python版本的问题导致的语法错误。Spark 3.0+版本需要使用Python 3.x,而你当前的环境使用的是Python 2.7.6。

    建议按照以下步骤进行操作:
    先检查python版本,安装路径,修改你的脚本,将python改为python3,确保使用的是Python 3.x版本。例如:

    from pyspark.sql import SparkSession
    ....................
    use_database = '''use hivetest01'''
    ......
    spark = SparkSession.builder.appName().enableHiveSupport().getOrCreate()
    

    关于依赖问题,你可以尝试使用--jars选项来指定需要加载的额外JAR包。例如,假设你的额外JAR包位于/path/to/extra.jar,可以在spark-submit命令中添加以下参数:

    spark-submit --jars /path/to/extra.jar your_script.py
    

    这样Spark会加载指定的JAR包,以满足你的依赖需求。

    另外,确保你的依赖包与Spark版本兼容。如果你的Spark版本为3.2.1,可以下载相应版本的Hive相关依赖包。在你提供的信息中,已经有了一些Hive相关的JAR包,可以尝试使用它们。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 5月25日
  • 已采纳回答 5月17日
  • 创建了问题 5月16日

悬赏问题

  • ¥15 c#转安卓 java html
  • ¥15 os.listdir文件路径找不到
  • ¥15 使用gojs3.0,如何在nodeDataArray设置好text的位置,再go.TextBlock alignment中进行相应的改变
  • ¥15 psfusion图像融合指标很低
  • ¥15 银河麒麟linux系统如何修改/etc/hosts权限为777
  • ¥50 医院HIS系统代码、逻辑学习
  • ¥30 docker离线安装mysql报错,如何解决?
  • ¥15 构建工单的总账影响在哪里查询或修改
  • ¥15 三个简单项目写完之后有重赏之后联系我
  • ¥15 python报内存不能read错误