qq_45976202 2021-10-27 13:15 采纳率: 0%
浏览 14
已结题

为啥同样的的数据源spark的collect算子循环150次6s,pyspark的collect循环150次要2300s?

1.他们处理的数据源和处理次数、处理逻辑是一模一样的!!可是所需的时间差异却这么的大

2.因为spark版的kmeans算法里我要迭代计算新的聚类中心点,每一次迭代计算的聚类中心点结果需要collect到drive端,来进行下一次的迭代计算

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 11月4日
    • 创建了问题 10月27日

    悬赏问题

    • ¥15 单纯型python实现编译报错
    • ¥15 c++2013读写oracle
    • ¥15 c++ gmssl sm2验签demo
    • ¥15 关于模的完全剩余系(关键词-数学方法)
    • ¥15 有没有人懂这个博图程序怎么写,还要跟SFB连接,真的不会,求帮助
    • ¥15 PVE8.2.7无法成功使用a5000的vGPU,什么原因
    • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
    • ¥15 安装quartus II18.1时弹出此error,怎么解决?
    • ¥15 keil官网下载psn序列号在哪
    • ¥15 想用adb命令做一个通话软件,播放录音