Me丶kang 2020-06-01 11:33 采纳率: 0%
浏览 669

spark读取parquet的分区数量问题,blockSize?分割?

是这样的,hdfs某个parquet目录下共有64个part。采用gz压缩。

然后我用spark.read.parquet去读取。发现有1900+的partition。也就是1900+的task任务启动。
看起来还是读取的parquet.block.size参数。然后一个part下有很多个block。

但是gz压缩不是不可分割么?不应该是64个paritition吗?

块和分割的概念到底是什么呢?

  • 写回答

1条回答 默认 最新

  • zqbnqsdsmd 2020-09-10 14:48
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 有两个非常“自以为是”烦人的问题急期待大家解决!
  • ¥30 STM32 INMP441无法读取数据
  • ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
  • ¥15 用visualstudio2022创建vue项目后无法启动
  • ¥15 x趋于0时tanx-sinx极限可以拆开算吗
  • ¥500 把面具戴到人脸上,请大家贡献智慧
  • ¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面,不要作在线的,要离线状态。
  • ¥15 各位 帮我看看如何写代码,打出来的图形要和如下图呈现的一样,急
  • ¥30 c#打开word开启修订并实时显示批注
  • ¥15 如何解决ldsc的这条报错/index error