时代在召唤r 2021-07-09 17:05 采纳率: 80%
浏览 444
已采纳

pyspark速度很慢,不知道是哪方面原因求解惑。

我2千万数字排序用pyspark,spark standalone模式跑的,用的算子sortbykey,服务器分别是32g,32核剩余15g,一个是8g剩余1g,4核。排序用时7s多,感觉用时太多,我不知道到底是那方面问题,求解惑。

img

  • 写回答

1条回答 默认 最新

  • 居庆说数 2021-07-09 17:08
    关注

    你这是从mongodb把数读取出来然后再排序的么?可以看下取数的耗时。然后再spark webui上看看stage的时间消耗在什么地方了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 已采纳回答 7月9日
  • 创建了问题 7月9日

悬赏问题

  • ¥15 虚幻5 UE美术毛发渲染
  • ¥15 CVRP 图论 物流运输优化
  • ¥15 Tableau online 嵌入ppt失败
  • ¥100 支付宝网页转账系统不识别账号
  • ¥15 基于单片机的靶位控制系统
  • ¥15 真我手机蓝牙传输进度消息被关闭了,怎么打开?(关键词-消息通知)
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测