0

有两个数据框dfdf1

那么,让我们考虑3种情况:

  1. df1只有相同的行数df
  2. df1具有与df和 相同的行数,与 具有相同的分区数df。Think df.repartition(k)and,df1.repartition(k)之前就被处决了
  3. df1具有与 相同的行数df、与 相同的分区数df以及与 相同的行分布df。认为df1是由df1=df.select('col1','col2',..)

现在,

我这样做: df.repartition(n)那么,可以说它与以下内容df一起分发:

  1. 分区 1 - {一些行 1}
  2. 分区 2 - {一些行 2}
  3. ...
  4. 分区 n - {一些行 n}

然后,我愿意df1.repartition(n)。对于df1上述所有三种配置。

  1. 可以说每个分区的df1行数与dfpost的分区相同df.repartition(n)吗?意思是,如果执行程序 1 获得了 3 个分区,df其中行数为 r1,r2,r3,那么它也获得了 3 个分区df1,行数为 r1,r2,r3
  2. 可以说每个分区的分布与分区的df1分布相同吗?意思是,来自两个数据帧的第 i 行进入了同一个分区dfdf.repartition(n)
4

0 回答 0