启动 Linux 上的 jupyter ，windows 浏览器打开地址登陆，编写pyspark程序报错

启动 Linux 上的 jupyter ，windows 浏览器打开地址登陆，编写pyspark程序：


## 准备数据
def preparJobdata(sc):
    # 去取hdfs数据
    rawUserData = sc.textFile("hdfs://master:9000/pydata/input/job.csv") #准备数据上传文件到hdfs
    # 数据转换
    jobitem = rawUserData.map(lambda line: line.strip().split(","))
    # 岗位信息分词
    rawRatings = rawUserData.map(splitJob)
    # 将岗位信息特征依次封装
    ratingsRDD = rawRatings.filter(lambda x: x[0] != '').map(lambda x: (x[0], x[1], x[2], x[3], x[4], x[5]))
    return jobitem, ratingsRDD
jobitem, jobRDD = preparJobdata(sc)
jobitem.collect()

报错：

码友们求解~

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
亖夕新星创作者: python技术领域 2022-09-01 13:02
关注
报错每看懂，从代码上看splitJob没定义，splitJob是全局变量吗

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于 RDD 的分布式数据处理实验（pyspark）
2022-10-10 23:12

小坏蛋儿&的博客 ubuntu环境下安装anaconda，jupyter notebook与spark连接并实现交互，并基于恐怖袭击数据集通过RDD实现数据分析及可视化；最后附上standalone和yarn的两种任务提交方式的方法。
快捷键以及一些基础知识
2022-10-13 17:04

Python正在输入中.......的博客菜鸟网络上的知识点
【Spark计算引擎----第一篇：（全网最详细）带你从零基础通往精通之路】
2024-07-31 20:22

书生♡的博客 Apache Spark是专为大规模数据处理而设计的快速通用的分布式...Spark 被设计用于处理诸如==批处理、流处理、机器学习、图计算==等多种类型的数据处理任务，并且可以在各种数据源上运行，包括结构化与非结构化的数据。
数据分析与挖掘
2024-03-24 16:05

輕栀的博客在大数据系统上进行的离线计算通常针对（某一方面的）全体数据，比如针对历史上所有订单进行商品的关联性挖掘，这时候数据规模非常大，需要较长的运行时间，这类计算就是离线计算。MapReduce、Spark、Hive、Spark ...
一节课轻松通关 Spark
2021-02-27 01:52

爱学大树锯的博客大数据跟我学系列文章007-三节课轻松通关 Spark （一） ...如何选择 Spark 编程语言以及部署 Spark0 + 1 + 2 + 3 + 4关闭第06讲：Spark 抽象、架构与运行环境第07讲：Spark 核心数据结构：弹性分布式数据集
大数据原生集群 (Hadoop2.X为核心) 本地测试环境搭建四
2020-11-19 18:48

尘世壹俗人的博客在实际使用时都是在yarn上执行，而并非直接使用spark自己的master调度如果你想访问spark的iu页面，可以在浏览器中访问master节点的8080端口，而不是7077，历史服务器是你在那台节点上启动的spark历史服务就是那台 ...
Python 学习 ---＞模块、pypi ( 模块库 )、添加模块路径
2016-03-21 22:46

擒贼先擒王的博客什么是模块在 Python 中，一个.py文件就是一个模块（Module）。模块的名字就是文件的名字。在模块内部，通过全局变量__name_...为了实现代码的复用，通常会把一些其他程序中重用的代码拿出来单独放在一个程序文件中，
Spark常用API（五）
2019-08-05 14:02

dzysunshine的博客文章目录1. spark集群搭建2.... 使用jupyter连接集群的pyspark6. 理解Spark的shuffle过程7. 学会使用SparkStreaming8. 说一说take,collect,first的区别，为什么不建议使用collect？9. 向集群提交Spark程序10. ...
Datawhale_大数据0期
2019-07-25 22:15

码小匠---千少的博客【Task1】创建虚拟机+熟悉linux(2day) 创建三台虚拟机在本机使用Xshell连接虚拟机 CentOS7配置阿里云yum源和EPEL源安装jdk 熟悉linux 常用命令熟悉，shell 变量/循环/条件判断/函数等 shell小练习1： ...
Hadoop文章收集汇总 - 如禁止转载，请及时联系本人收集学习互联网各位前辈分享的文章
2018-09-30 11:00

jast_zsh的博客如何在非安全的CDH集群中部署多用户JupyterHub服务并集成Spark2 Fayson 2018/9/8 11:50 Hadoop实操如何通过CM升级CDK至3.1.0(Kafka-1.0.1) Fayson 2018/9/7 0:05 Hadoop实操 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月1日

启动 Linux 上的 jupyter ，windows 浏览器打开地址登陆，编写pyspark程序报错

1条回答 默认 最新

问题事件

1条回答默认最新