有两个数据框df和df1
那么,让我们考虑3种情况:
df1只有相同的行数dfdf1具有与df和 相同的行数,与 具有相同的分区数df。Thinkdf.repartition(k)and,df1.repartition(k)之前就被处决了df1具有与 相同的行数df、与 相同的分区数df以及与 相同的行分布df。认为df1是由df1=df.select('col1','col2',..)
现在,
我这样做:
df.repartition(n)那么,可以说它与以下内容df一起分发:
- 分区 1 - {一些行 1}
- 分区 2 - {一些行 2}
- ...
- 分区 n - {一些行 n}
然后,我愿意df1.repartition(n)。对于df1上述所有三种配置。
- 可以说每个分区的
df1行数与dfpost的分区相同df.repartition(n)吗?意思是,如果执行程序 1 获得了 3 个分区,df其中行数为 r1,r2,r3,那么它也获得了 3 个分区df1,行数为 r1,r2,r3 - 可以说每个分区的分布与分区的
df1分布相同吗?意思是,来自两个数据帧的第 i 行进入了同一个分区dfdf.repartition(n)