spark一般任务的初始并行度怎么确定？

一般的spark程序从hdfs读取数据后的初始task数是多少？对于图计算模块GraphX来说，通过GraphLoader.edgeListFile读取图文件后接下来为计算分配的task数又怎么确定？求大佬们解答。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
玄尺 2018-11-02 12:50
关注
图计算没搞过。
task数量 = 逻辑计算复杂程度 * partition。hdfs的文件是按照block进行存储，当spark从hdfs读取文件之后，每一个block对应一个RDD中的partition。每一次算子对RDD进行操作，都是对partition进行操作，至于task的数量取决于你的逻辑，归结在于RDD中的compute方法，每一次调用该方法都会启动一个task处理。
spark采用的懒加载，只有触发shffle的时候才会真正的处理数据，所以spark读hdfs文件创建RDD不花费时间，之后真正处理（join才会读数据）。
提升并行度的方法：
1、保证资源到位，把executor资源加大（保证资源不是瓶颈）
2、spark.defalut.parallelism把这个参数提升到合理大小，默认500（保证并发度不是瓶颈）
3、如果以上两个方式都不能打到目的，那就repartition一下（保证partition数量不是瓶颈）

https://blog.csdn.net/weixin_37893887/article/details/83473201

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
如何使用spark mlib进行疾病概率的预测？ spark 决策树大数据
2022-02-09 14:07

回答 1 已采纳二分类本来输出的就是概率，只不过平时习惯性得到0 和 1 是概率划分过界限后得到的结果。很多模型也都是给出了两个预测接口 predict, predict_proba
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
Spark---并行度和分区
2023-04-01 14:54

快跑呀长颈鹿的博客 Spark---并行度和分区
关于#Spark#的问题，如何解决？ spark
2022-11-29 17:10

回答 1 已采纳 D
为什么要用spark-submit提交任务？ spark
2022-09-16 19:01

回答 1 已采纳因为spark是计算引擎，你是将你的代码提交到spark上运行，不是运行spark程序
在Java web中怎么提交一个spark job任务？ java spark
2018-11-06 15:11

回答 3 已采纳 spark使用命令行提交任务使用场景很窄，一般情况下提交任务、kill任务、查询任务执行状态都是使用http接口，在这种场景下你应该使用livy。你需要安装livy，才可以用，具体安装文档以及使用文档
大数据之 spark 任务划分
2024-01-25 10:39

转身成为了码农的博客在实际运行过程中，Spark的DAGScheduler首先将Job拆分成Stages，然后TaskScheduler将Stages进一步分解...Apache Spark 中的任务划分（Task Scheduling）是一个关键的优化过程，它影响到整个Spark作业执行的效率和性能。
spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 20:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
怎么在虚拟环境中，用spark的知识分析并可视化？ hadoop python spark
2022-12-12 22:34

回答 1 已采纳中文不显示可能是编码格式的问题，
spark hadoop 怎么多人协作开发？ hadoop spark
2022-06-07 00:40

回答 3 已采纳这取决于你需要解决什么问题，如果只是临时跑一下批处理任务用到spark大可local模式跑跑完了，真要构建完整的hadoop生态你这一台云服务器够呛，内存低了甚至跑不起来全部组件
理解spark的分区数和并行度的关系
2022-09-27 11:14

Gino_ZZ的博客 spark分区数和并行度的关系
关于#spark#的问题，如何解决？分析不同城市分布情况并可视化。(语言-python) python spark
2022-12-15 01:18

回答 1 已采纳不同城市，使用spark_sql很简单的，最后group by city就可以了你再使用python 的Matplotlib库就可以画图了
大数据｜Spark介绍
2023-05-18 15:41

啦啦右一的博客前文回顾：Hive和数据仓库目录为什么会有Spark Spark的基本架构和组件主要体系结构和组件 Spark集群的基本结构 Spark系统的基本结构 Spark应用程序的基本结构 Spark程序运行机制⭐️ Spark的程序执行过程 Spark...
Spark任务调度概述_大数据培训
2022-08-04 19:11

尚硅谷铁粉的博客在上一章中我们讲解了Spark YARN-Cluster模式下的任务提交流程，但是我们并没有具体说明Driver的工作流程， Driver线程主要是初始化SparkContext对象，准备运行所需的上下文，然后一方面保持与ApplicationMaster的...
没有解决我的问题, 去提问

悬赏问题

¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100
¥15 关于#hadoop#的问题