spark sql使用distribute by生成的文件数和预期不符

spark版本2.3。distribute by cast(rand()*400 as int)应该生成400个文件。当前只有255个文件，多次执行结果一样，想知道是什么原因(partition的数量也是400，executors数100,executor core数4)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
高级系统分析师苏晋 2021-09-27 21:00
关注
传不同 seed 试试，rand(seed)

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

一个关于spark的问题 hadoop spark 有问必答
2023-03-08 19:48

回答 2 已采纳连接被拒绝，说明服务不通。检查对应服务是否有启动。
pycharm下ssd-tensoflow-master生成tfrecords_文件出现access violation 问题 pycharm tensorflow 目标检测
2022-03-17 15:33

回答 1 已采纳本人最后采用了pytorch实现了ssd nwpu数据集目标检测，这一方面问题暂时告一段落
如何从表单中获取结果并将它们发送到PHP和SQL中的不同表 php sql
2018-06-20 06:00

回答 2 已采纳 steps (besides what @Jens says which is valid): 1) insert into person table like you do 2) inser
Spark SQL 与 Hive 的小文件调优
2022-12-02 20:05

月亮给我抄代码的博客小文件会造成 nn 处理压力变大，大大降低了读取性能，整个 HDFS 文件系统访问缓慢，大量的小文件还会导致 nn 内存溢出，无法正常使用。以上参数调优都是临时调优，仅限于本次会话，如果想要永久设置的话只需要将参数...
将xml文件转换成YOLO系列标准读取的txt文件时出现问题 python pytorch 有问必答深度学习
2023-03-21 00:23

回答 3 已采纳文件不存在，用的是相对路径读取，文件路径不对。改用绝对路径吧，直接取xml所在磁盘位置。
Android如何安装apk文件 android java
2022-06-10 10:33

回答 1 已采纳先试试手动装一下，是否能打开下面是我封装好的，常用方法（包含判断某个应用是否安装、安装应用、打开应用等），拿走不谢 /** * 安装apk * * @par
如何使用MySQL Query和PHP分发排名 mysql php sql
2013-11-09 02:28

回答 2 已采纳 If you want to update the table you can do: UPDATE tbRank t INNER JOIN ( SELECT ID, StudID, Sco
如何避免Spark SQL做数据导入时产生大量小文件
2021-03-10 00:23

过往记忆的博客我们之前的文章《蚂蚁绊倒大象...》介绍过，海量小文件是大数据领域中公认的难题，对时间和性能都可能造成毁灭性打击。本文将继续针对小文件，讲解小文件产生的原因和一些解决办法，希望对大家能有所...
Jupyter使用conda虚拟环境 jupyter python
2022-10-24 09:38

回答 1 已采纳请看👉 ：jupyter notebook使用conda虚拟环境报错
Distribute Message
2017-06-13 12:19

回答 2 已采纳 http://blog.csdn.net/jxust_tj/article/details/38904981
json文件如何加密以及解密成如内容所示（JavaScript） java 有问必答
2022-01-27 16:07

回答 3 已采纳加密，JSON字符串加密后，得到JSON密文，将JSON密文转成16进制。解密，16进制转密文字符串后解密。java示例代码（base64）： package com.ylb; import jav
Spark SQL 小文件问题
2021-08-24 17:04

Tate小白的博客 Spark SQL 小文件问题1、小文件现象2、小文件产生的原因3、小文件的危害4、如何解决小文件问题4.1 spark-sql adaptive框架解决小文件问题4.2 举例 1、小文件现象文件大小只有几KB，数量有4800个。 2、小文件产生...
NetworkX 有权无向图计算最短路径 python 大数据算法
2022-12-27 15:29

回答 1 已采纳 shortest_path(G[, source, target, weight,...]) 计算图中的最短路径，可以用于无向图或有向图 dijkstra_path(G, source, target
spark sql的执行顺序是什么样的
2023-02-09 19:57

念区的博客优化表达式树：在解析后，Spark SQL 会执行一系列优化步骤来尽量减少数据的传输和计算。这些步骤包括谓词下推、排序合并、等价类合并等。生成物理计划：在表达式树被优化后，Spark SQL 会将其转换为物理计划，这个...
避免Hive和Spark生成HDFS小文件
2020-03-25 09:11

穷目楼的博客 Hive 和 spark-sql是两个在常用的大数据计算分析引擎，用户直接以SQL进行大数据操作，底层的数据存储则多由HDFS提供。对小数据表的操作如果没做合适的处理则很容易导致大量的小文件在HDFS上生成，常见的一个情景是...
spark sql重分区
2022-11-08 16:05

hua_ed的博客 spark sql重分区
由spark.sql.shuffle.partitions混洗分区浅谈下spark的分区
2022-11-20 12:14

lixia0417mul2的博客 spark分区 spark并行度 spark任务数 spark输入数据分区 spark shuffle操作分区
hive/spark写入保存出现小文件过多的解决
2023-02-02 14:50

旺仔的算法coding笔记的博客在pyspark 中直接以 spark.sql(insert into tableNew ..partition(...).select ...from tableOld)的方式写入数据时，默认未开启动态分区会报错。开启动态分区后容易造成小文件过多从而磁盘报警。
Spark SQL 工作流程源码解析（二）parsing 阶段（基于 Spark 3.3.0）
2022-02-04 15:22

Shockang的博客本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录 Spark SQL ...
大数据中的小文件问题
2022-07-26 10:59

꧁꫞ND꫞꧂的博客文件储存在硬盘上，硬盘的最小存储单位叫做"扇区"（Sector）。...文件数据都储存在"块"中，那么很显然，我们还必须找到一个地方储存文件的元信息，比如文件的创建者、文件的创建日期、文件的大小等等。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月27日

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

spark sql使用distribute by生成的文件数和预期不符

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新