qq_45976202 2021-10-27 13:15 采纳率: 0%

浏览 14

已结题

为啥同样的的数据源spark的collect算子循环150次6s，pyspark的collect循环150次要2300s？

1.他们处理的数据源和处理次数、处理逻辑是一模一样的！！可是所需的时间差异却这么的大

2.因为spark版的kmeans算法里我要迭代计算新的聚类中心点，每一次迭代计算的聚类中心点结果需要collect到drive端，来进行下一次的迭代计算

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月27日

悬赏问题

¥15 单纯型python实现编译报错
¥15 c++2013读写oracle
¥15 c++ gmssl sm2验签demo
¥15 关于模的完全剩余系(关键词-数学方法)
¥15 有没有人懂这个博图程序怎么写，还要跟SFB连接，真的不会，求帮助
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音