是这样的,hdfs某个parquet目录下共有64个part。采用gz压缩。
然后我用spark.read.parquet去读取。发现有1900+的partition。也就是1900+的task任务启动。
看起来还是读取的parquet.block.size参数。然后一个part下有很多个block。
但是gz压缩不是不可分割么?不应该是64个paritition吗?
块和分割的概念到底是什么呢?
是这样的,hdfs某个parquet目录下共有64个part。采用gz压缩。
然后我用spark.read.parquet去读取。发现有1900+的partition。也就是1900+的task任务启动。
看起来还是读取的parquet.block.size参数。然后一个part下有很多个block。
但是gz压缩不是不可分割么?不应该是64个paritition吗?
块和分割的概念到底是什么呢?