骑着蜗牛ひ追导弹' 2022-09-01 12:52 采纳率: 55.6%
浏览 21

启动 Linux 上的 jupyter ,windows 浏览器打开地址登陆,编写pyspark程序报错

启动 Linux 上的 jupyter ,windows 浏览器打开地址登陆,编写pyspark程序:


## 准备数据
def preparJobdata(sc):
    # 去取hdfs数据
    rawUserData = sc.textFile("hdfs://master:9000/pydata/input/job.csv") #准备数据上传文件到hdfs
    # 数据转换
    jobitem = rawUserData.map(lambda line: line.strip().split(","))
    # 岗位信息分词
    rawRatings = rawUserData.map(splitJob)
    # 将岗位信息特征依次封装
    ratingsRDD = rawRatings.filter(lambda x: x[0] != '').map(lambda x: (x[0], x[1], x[2], x[3], x[4], x[5]))
    return jobitem, ratingsRDD
jobitem, jobRDD = preparJobdata(sc)
jobitem.collect()

报错:

img

码友们求解~

  • 写回答

1条回答 默认 最新

  • 亖夕 Python领域新星创作者 2022-09-01 13:02
    关注

    报错每看懂,从代码上看splitJob没定义,splitJob是全局变量吗

    评论

报告相同问题?

问题事件

  • 创建了问题 9月1日

悬赏问题

  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么
  • ¥15 banner广告展示设置多少时间不怎么会消耗用户价值
  • ¥16 mybatis的代理对象无法通过@Autowired装填
  • ¥15 可见光定位matlab仿真
  • ¥15 arduino 四自由度机械臂
  • ¥15 wordpress 产品图片 GIF 没法显示
  • ¥15 求三国群英传pl国战时间的修改方法
  • ¥15 matlab代码代写,需写出详细代码,代价私
  • ¥15 ROS系统搭建请教(跨境电商用途)