pyspark对大量数据生成的rdd处理的一些问题


import findspark
import pyspark
import math


findspark.init()

R = 6371.393
Pi = 3.14


def get_distance(taxi, district):
    taxi_longitude = float(taxi[0])
    taxi_latitude = float(taxi[1])
    district_longitude = float(district[0])
    district_latitude = float(district[1])
    a = (math.sin(math.radians(taxi_latitude / 2 - district_latitude / 2))) ** 2
    b = math.cos(taxi_latitude * Pi / 180) * math.cos(district_latitude * Pi / 180) * (
        math.sin((taxi_longitude / 2 - district_longitude / 2) * Pi / 180)) ** 2

    L = 2 * R * math.asin((a + b) ** 0.5)

    return L


def get_label(distance, r):
    if distance <= r:
        return 1
    else:
        return 0


def print_rdd(x):
    print(x)


if __name__ == '__main__':
    conf = pyspark.SparkConf().setMaster("local[*]").setAppName("PySparkTest")
    sc = pyspark.SparkContext(conf=conf)
    district = sc.textFile(u'./data/district.txt')
    taxi_gps = sc.textFile(u'./data/taxi_gps.txt')

    district_data = district.map(lambda line: line.split(','))
    taxi_data = taxi_gps.map(lambda line: line.split(',')[4:6])

    merge_data = taxi_data.cartesian(district_data)
    taxi_label = merge_data.map(lambda a: (a[1][0], get_label(get_distance(a[0], a[1][1:3]), float(a[1][3]))))
    cnt = taxi_label.filter(lambda x: x[1] == 1).reduceByKey(lambda x, y: x + y)

    print(cnt.collect())

    # cnt.saveAsTextFile("./result")

初学pyspark，这是一个类似wordcount的问题，我是用pycharm做的，最后rdd的collect()输出结果会显示socket.timeout

感觉可能是因为spark的慢处理机制，同时基于内存的操作，导致collect()失败，考虑到可能是数据太大了，导致collect()时内存不够，所以当我把两万条数据删到100条时，就会正常运行，所以可能就是数据量太大导致的，换了take()或者是foreach()以及尝试使用输出文件都不行，但是我舍友的mac同样的代码，同样spark和pyspark版本都是3.0.0是可以成功出结果的。总之，目前不知道怎么输出含有大量数据的rdd，会不会需要使用hdfs，或者说是别的问题，求解，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-11-16 11:05
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
『pyspark』三：RDD数据处理
2021-06-27 17:20

简之的博客 1、使用Pyspark 1.1 Linking with Spark from pyspark import SparkContext, SparkConf 1.2 Initializing Spark conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) 2、RDD ...
RDD算子操作的一个问题 apache java python redis scala
2019-09-29 14:39

回答 1 已采纳 https://blog.csdn.net/dsl200970/article/details/70148195
关于#lua#的问题：则rdd.getNumPartitions lua spark
2022-11-29 12:45

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以返回结果是2
pycharm 使用pyspark 调用map算子一直报错 pycharm
2023-01-13 10:09

回答 5 已采纳看看是不是环境配置不正确导致的，请检查SparkContext是否正确配置，以及Python版本是否与Spark版本兼容。
PySpark数据分析基础:核心数据集RDD原理以及操作一文详解(一)
2023-01-31 14:13

fanstuck的博客要进行大数据分析是离不开Spark的，不然怎么说是大数据呢，数据量不达到几个TB也好意思叫大数据（哈...），之前一直使用的Pandas做一些少量数据的分析处理的，发现最近要玩的数据量实在过于巨大了，不得不搬上我们的...
关于spark RDD求平均的问题
2015-11-23 12:10

回答 1 已采纳先转化为pairrdd，以时段为键，分数次数为值，然后以键aggregate聚合，统计每个键下的值就行了
pyspark报错，'DataFrame' object has no attribute '_jdf' python spark
2022-04-29 16:55

回答 1 已采纳可以参考一下
则rdd.getNumPartitions的结果是什么 spark
2022-11-29 12:53

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以答案是：2
PySpark数据分析基础:核心数据集RDD常用函数操作一文详解(二)
2023-02-02 14:15

fanstuck的博客可以用PySpark实现的功能太多了，基本上Spark能实现的PySpark都能实现，而且能够实现兼容python其他库，这就给了PySpark极大的使用空间，能够结合大数据集群实现更高效更精确的大数据处理或者预测。如果能够将这些...
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
PySpark大数据分析(2)：RDD操作
2020-09-04 10:47

唐犁的博客对RDD的操作主要分为转化操作和行动操作两种。Spark可以将RDD中的数据分发到集群上，以此并行化执行相关的操作。当我们读取一个外部数据的时候，它在Spark中就是以RDD的形式存在的。比如我们读取一个此时的iris就是...
Python项目实战：使用PySpark对大数据进行分析
2021-04-18 09:33

play_big_knife的博客 Python项目实战：使用PySpark对大数据进行分析 大数据，顾名思义就是大量的数据，一般这些数据都是PB级以上。PB是数据存储容量的单位，它等于2的50次方个字节，或者在数值上大约等于1000个TB。这些数据的特点是种类...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月15日

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

pyspark对大量数据生成的rdd处理的一些问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新