pyspark为什么调用类会导致lost task报错？

在学习pyspark时，运行以下代码（二次排序）出错：

from operator import gt
from pyspark import SparkContext, SparkConf


'''
实现思路：
1、按照Ordered和Serializable接口实现自定义排序的key
2、要将进行排序的文件加载进来生成<key,value>的RDD
3、使用sortByKey基于自定义的Key进行二次排序
4、去除掉排序的Key只保留排序的结果
'''


class SecondarySortKey():
    @staticmethod
    def __init__(self, k):
        self.column1 = k[0]
        self.column2 = k[1]

    def __gt__(self, other):
        if other.column1 == self.column1:
            return gt(self.column2, other.column2)
        else:
            return gt(self.column1, other.column1)


def main():
    conf = SparkConf().setAppName('saprk_sort').setMaster('spark://master:7077')
    sc = SparkContext(conf=conf)
    file = "/usr/hadoop/test/file4.txt"
    rdd1 = sc.textFile(file)
    rdd2 = rdd1.filter(lambda x: len(x.strip()) > 0)
    rdd3 = rdd2.map(lambda x: ((int(x.strip(" ")[0]), int(x.strip(" ")[1])), x))
    rdd4 = rdd3.map(lambda x: (SecondarySortKey(x[0]), x[1]))
    rdd5 = rdd4.sortByKey(False)
    rdd6 = rdd5.map(lambda x:x[1])
    rdd6.foreach(print)


if __name__ == '__main__':
    main()

出现lost task的错误，经过三天的尝试，基本排除了配置问题（运行不含类的代码没有问题），集群问题，代码问题（将上述代码改为本地运行没有问题），查遍了很多办法，有点小绝望，不知道有大神可以解答嘛?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-07-29 17:35
关注
https://blog.csdn.net/T1DMzks/article/details/73929138

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么我这个程序判断位数报错？ c语言有问必答
2021-10-13 19:59

回答 1 已采纳输入a没加取地址符&另外判断位数while循环里不要先除一次，这样会少一位如果有帮助请点一下我回答右上方的采纳，谢谢！以后有什么问题可以互相交流。修改后： #include<stdio.h&gt
python调用so库时报错 python 有问必答
2021-05-20 20:50

回答 2 已采纳 libatptradeapi. so: cannot open shared object file :no such file or directory是没有这个文件，你检查下你的文件路径对不对。
python连接MySQL报错 2013 mysql python 数据库
2022-02-11 14:03

回答 3 已采纳首先，下载一个mysql的客户端，任何一款都行，先测试在电脑B上到底能不能远程连接电脑A不要用ssh，那是远程登录到电脑A，然后用电脑A上自身的客户端连接它很可能mysql没有开启远程连接功能，或者防
【错误记录】Python 中使用 PySpark 数据计算报错 ( SparkException: Python worker failed to connect back. )
2023-08-01 23:45

韩曙亮的博客 org.apache.spark.SparkException: Python worker failed to connect back. at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:192) at org.apache.spark.api....
Python Qt报错 'QMainWindow' object has no attribute 'on_pushButton' python qt
2022-09-03 19:01

回答 2 已采纳自己定义的 MyMainClass 有问题， main函数没实例化自己的类对象，初学qt 有点生疏。 ```python # -*- coding: utf-8 -*- import sys fr
写了一个调用其他API接口获取数据的项目，调试正常。使用时会频繁报错，来先生教我 python 后端
2021-11-07 02:43

回答 5 已采纳你说你还剩下最后一个报错没有解决:urllib3.exceptions.MaxRetryError由字面意思可以知道是http连接太多没有关闭导致的解决方法一: 增加http连接重试次数 reque
UE4使用经常会闪退报错 ue4
2022-08-08 14:55

回答 1 已采纳 Unreal Engine is exiting due to D3D device being lost. (Error: 0x0- 'S OK)意思是由于D3D设备丢失，虚幻引擎正在退出。（错误：
关于python下解决pyspark报错问题
2024-03-19 09:28

qq_45884215的博客 3、安装jdk，点击exe运行程序，完成安装步骤，安装地址与4中value相对应。没有安装jdk,安装java环境。4、添加Java环境。
python3 通过ssh链接数据库报错10054 python ssh
2017-12-18 09:02

回答 12 已采纳从 print(conn)[45]行到 conn.close()[55]行全部右移一个tab即可;
pyqt点击预测分类无法显示分类，直接闪退 python qt 分类
2022-05-19 13:09

回答 1 已采纳你主要调查下这个函数可以进行单步调试下，应该就是有个值为空，所以导致程序奔溃
配置hive on spark测试，创建表，insert测试效果报错，如何解决？ hadoop hive spark 有问必答
2022-04-21 01:37

回答 2 已采纳你在b站视频下面看看评论区，评论区下面的前几个有大佬提供了解决思路。我当时这里报错了，我用了评论区给的方法成功了。如果评论区的方法没有解决，说一个最不好听的方法，你把hive和spark重新装一遍。我
python安装成功第三方库但import出问题_为什么会在pyspark在RDD中调用python第三方库失败？...
2020-12-02 07:47

weixin_39653311的博客问题描述Hi, 我在公司线上运行pyspark时调用jieba分词，发现可以成功import，但是在RDD中调用分词函数时却提示没有 module jieba，在本地虚拟机时没有这些问题问题出现的环境背景及自己尝试过哪些方法尝试更换了...
为什么这个ajax调用只发送q和电子邮件？ ajax jquery php
2014-07-04 18:52

回答 3 已采纳 You need to change: message: $('input[name=message]').val() to message: $('textarea[name="mess
windows上pyspark glom()或map之后collect报错
2022-06-11 17:25

ThisIsNicole的博客 pyspark报错
python saveas_在PySpark中使用saveAsNewAPIHadoopDataset操作Hbase报错
2020-12-08 12:50

weixin_39962758的博客环境 : hadoop-2.7.7, Spark-2.2.0, Hbase-2.1.1参考此文测试 :在PySpark中使用saveAsNewAPIHadoopDataset操作Hbase报错, 错误信息 :18/11/12 00:05:42 INFO scheduler.DAGScheduler: ResultStage 1 (runJob at ...
Python中pyspark_map数据计算方法
2022-12-08 11:02

sakura_aqi的博客最近在学习python中的pyspark使用方法，在使用_map方法进行大数据计算时出现报错此处报错是因为使用了print（rdd2.collect（）），只要把这句注释掉就不会报错，请问这是什么原因导致的，还有怎么把这个报错解决，...
【Python】Jupyter Notebook报错 SparkException: Python worker failed to connect back.
2022-08-23 22:41

骑着蜗牛ひ追导弹'的博客 Jupyter Notebook报错 SparkException: Python worker failed to connect back.
python 内存不足报错_Spark排错与优化
2021-01-14 08:48

weixin_39524048的博客 Master挂掉,standby重启也失效Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成Spark ui，内存不足自然会OOM，可以在master的运行日志中看到，...
pyspark 使用pandas_udf 报错：java.lang.IllegalArgumentException
2022-06-13 00:12

小猫不会去楼兰捉虫的博客 pyspark使用pandas_udf时的一个坑 2.运行报错： 3. 解决办法报错原因：pyarrow 版本太高。解决办法：卸载pyarrow，安装低版本的pyarrow，这里安装0.12.0 程序就正常了。
没有解决我的问题, 去提问

悬赏问题

¥15 有偿四位数，节约算法和扫描算法
¥15 VUE项目怎么运行，系统打不开
¥50 pointpillars等目标检测算法怎么融合注意力机制
¥15 关于超局变量获取查询的问题
¥20 Vs code Mac系统 PHP Debug调试环境配置
¥60 大一项目课，微信小程序
¥15 求视频摘要youtube和ovp数据集
¥15 在启动roslaunch时出现如下问题
¥15 汇编语言实现加减法计算器的功能
¥20 关于多单片机模块化的一些问题

pyspark为什么调用类会导致lost task报错？

1条回答 默认 最新

悬赏问题

1条回答默认最新