apache-spark - 如果没有指定列名，pyspark 重新分区如何工作？

翻译自：https://stackoverflow.com/questions/71015771 2022-02-07T08:55:15.543

23 次

0

有两个数据框df和df1

那么，让我们考虑3种情况：

df1只有相同的行数df
df1具有与df和相同的行数，与具有相同的分区数df。Think df.repartition(k)and,df1.repartition(k)之前就被处决了
df1具有与相同的行数df、与相同的分区数df以及与相同的行分布df。认为df1是由df1=df.select('col1','col2',..)

现在，

我这样做： df.repartition(n)那么，可以说它与以下内容df一起分发：

分区 1 - {一些行 1}
分区 2 - {一些行 2}
...
分区 n - {一些行 n}

然后，我愿意df1.repartition(n)。对于df1上述所有三种配置。

可以说每个分区的df1行数与dfpost的分区相同df.repartition(n)吗？意思是，如果执行程序 1 获得了 3 个分区，df其中行数为 r1,r2,r3，那么它也获得了 3 个分区df1，行数为 r1,r2,r3
可以说每个分区的分布与分区的df1分布相同吗？意思是，来自两个数据帧的第 i 行进入了同一个分区dfdf.repartition(n)

0 回答 0