一、问题:执行spark-submit+python脚本后报各种错误。
目的:,通过执行上面spark-submit命令,使spark操作hive,在hive指定数据库生成数据表及数据。
xxx.py脚本部分内容是
from pyspark.sql import SparkSession
....................
use_database='''use hivetest01'''
......
spark=SparkSession.builder.appName().enableHiveSupport().getOrCreate()
二、实验环境
外置hive:apache-hive-3.1.3-bin.tar.gz
spark带hadoop的:spark-3.2.1-bin-hadoop3.2.tgz
hadoop:hadoop-3.2.4.tar.gz
其他包放spark的jars:spark-hive_2.12-3.2.1.jar、spark-hive-thriftserver_2.12-3.2.1.jar、spark-sql_2.12-3.2.1.jar
二、报错集合
1、以为是python问题。
解决:手贱卸载了python,然后yum什么都没了。又重新安装在/usr/python2.7.6这目录,做了软连接到/usr/bin。yum pip也自己装了。
2、再次执行脚本,报下面错。不知道是不是spark和什么冲突;三天无法解决,都是这错误。快崩溃了
3、输入pyspark,也报错。感觉from pyspark.sql import SparkSession 无法导入。
另外,依赖问题,我不想下图文linux然后安装idea,用了sbt打包也没鸟用。。
所以请问黑框的linux,怎么解决实验的依赖问题??
不知道这些是一个原因造成的,还是多个原因。很崩溃~~