对于大型数据集,koalas.head(n)
函数需要很长时间。我知道它试图带回驱动程序节点中的所有数据,然后呈现绝对前 n 行。
有没有什么快速的方法来分析考拉中的前 n 行,以便只涉及单个或几个分区来获得预期的结果?我不想看到绝对的前 n 行,它们可以随机分布在不同的执行程序节点上,甚至位于同一个分区中。
对于大型数据集,koalas.head(n)
函数需要很长时间。我知道它试图带回驱动程序节点中的所有数据,然后呈现绝对前 n 行。
有没有什么快速的方法来分析考拉中的前 n 行,以便只涉及单个或几个分区来获得预期的结果?我不想看到绝对的前 n 行,它们可以随机分布在不同的执行程序节点上,甚至位于同一个分区中。