sjfx2021 2022-01-21 16:15 采纳率: 0%

浏览 19

已结题

pyspark性能问题咨询

当groupby().apply()中使用pandas_udf函数时，会将全部数据分组后，每一组数据拉到内存中来，请问这里的内存是指各个executor中的内存还是指driver的内存？如果是executor的内存，那么groupby的过程是否为shuffle过程？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2022-01-24 14:58
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月21日