时代在召唤r 2021-07-09 17:05 采纳率: 80%
浏览 444
已采纳

pyspark速度很慢,不知道是哪方面原因求解惑。

我2千万数字排序用pyspark,spark standalone模式跑的,用的算子sortbykey,服务器分别是32g,32核剩余15g,一个是8g剩余1g,4核。排序用时7s多,感觉用时太多,我不知道到底是那方面问题,求解惑。

img

  • 写回答

1条回答 默认 最新

  • 居庆说数 2021-07-09 17:08
    关注

    你这是从mongodb把数读取出来然后再排序的么?可以看下取数的耗时。然后再spark webui上看看stage的时间消耗在什么地方了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 已采纳回答 7月9日
  • 创建了问题 7月9日

悬赏问题

  • ¥50 三种调度算法报错 有实例
  • ¥15 关于#python#的问题,请各位专家解答!
  • ¥200 询问:python实现大地主题正反算的程序设计,有偿
  • ¥15 smptlib使用465端口发送邮件失败
  • ¥200 总是报错,能帮助用python实现程序实现高斯正反算吗?有偿
  • ¥15 对于squad数据集的基于bert模型的微调
  • ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
  • ¥20 steam下载游戏占用内存
  • ¥15 CST保存项目时失败
  • ¥20 java在应用程序里获取不到扬声器设备