有两个数据框df
和df1
那么,让我们考虑3种情况:
df1
只有相同的行数df
df1
具有与df
和 相同的行数,与 具有相同的分区数df
。Thinkdf.repartition(k)
and,df1.repartition(k)
之前就被处决了df1
具有与 相同的行数df
、与 相同的分区数df
以及与 相同的行分布df
。认为df1
是由df1=df.select('col1','col2',..)
现在,
我这样做:
df.repartition(n)
那么,可以说它与以下内容df
一起分发:
- 分区 1 - {一些行 1}
- 分区 2 - {一些行 2}
- ...
- 分区 n - {一些行 n}
然后,我愿意df1.repartition(n)
。对于df1
上述所有三种配置。
- 可以说每个分区的
df1
行数与df
post的分区相同df.repartition(n)
吗?意思是,如果执行程序 1 获得了 3 个分区,df
其中行数为 r1,r2,r3,那么它也获得了 3 个分区df1
,行数为 r1,r2,r3 - 可以说每个分区的分布与分区的
df1
分布相同吗?意思是,来自两个数据帧的第 i 行进入了同一个分区df
df.repartition(n)