问题遇到的现象和发生背景
操作系统:Ubuntu 20.04
Spark版本:3.2.1
Hadoop 版本:3.3.1
Python 版本:3.8.10
Java 版本:1.8.202
问题相关代码,请勿粘贴截图
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("WordCount").setMaster("local")
sc = SparkContext(conf=conf)
inputFile = "hdfs://localhost:9000/user/way/word.txt"
textFile = sc.textFile(inputFile)
wordCount = textFile.flatMap(lambda line : line.split(" ")).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b)
wordCount.foreach(print)
Spark 中运行结果及报错内容
pycharm中运行结果及报错内容
Process finished with exit code 1
我的解答思路和尝试过的方法
我以为是py4j文件目录有问题,后来发现不是;后来看pycharm报错是导入包文件的问题可能是版本兼容性问题
我想要达到的结果
正常运行代码