一个问题是,spark在读取数据的时候,是逐条读入内存,还是分块读入,或者是一口气全部读入内存的?另一个问题是,如果数据保存在sql数据库中,那么所需要读取的数据,是直接通过SparkContext绑定sql地址和语句,通过网络传输;还是提前从sql中生成excel文件,放到spark服务器的文件夹中进行处理?
1条回答 默认 最新
- threenewbee 2019-06-28 17:08关注
主要的性能开销在cpu,spark只是一个分布式框架,具体怎么计算要你自己去做。建议你用sklearn之类的机器学习的框架,而不是直接用spark
解决 无用评论 打赏 举报
悬赏问题
- ¥15 素材场景中光线烘焙后灯光失效
- ¥15 请教一下各位,为什么我这个没有实现模拟点击
- ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
- ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
- ¥20 有关区间dp的问题求解
- ¥15 多电路系统共用电源的串扰问题
- ¥15 slam rangenet++配置
- ¥15 有没有研究水声通信方面的帮我改俩matlab代码
- ¥15 ubuntu子系统密码忘记
- ¥15 保护模式-系统加载-段寄存器