骑着蜗牛ひ追导弹' 2022-09-01 12:52 采纳率: 55.6%
浏览 23

启动 Linux 上的 jupyter ,windows 浏览器打开地址登陆,编写pyspark程序报错

启动 Linux 上的 jupyter ,windows 浏览器打开地址登陆,编写pyspark程序:


## 准备数据
def preparJobdata(sc):
    # 去取hdfs数据
    rawUserData = sc.textFile("hdfs://master:9000/pydata/input/job.csv") #准备数据上传文件到hdfs
    # 数据转换
    jobitem = rawUserData.map(lambda line: line.strip().split(","))
    # 岗位信息分词
    rawRatings = rawUserData.map(splitJob)
    # 将岗位信息特征依次封装
    ratingsRDD = rawRatings.filter(lambda x: x[0] != '').map(lambda x: (x[0], x[1], x[2], x[3], x[4], x[5]))
    return jobitem, ratingsRDD
jobitem, jobRDD = preparJobdata(sc)
jobitem.collect()

报错:

img

码友们求解~

  • 写回答

1条回答 默认 最新

  • 亖夕 新星创作者: python技术领域 2022-09-01 13:02
    关注

    报错每看懂,从代码上看splitJob没定义,splitJob是全局变量吗

    评论

报告相同问题?

问题事件

  • 创建了问题 9月1日