numpy - numpy 数组是在 spark 驱动程序还是执行程序上创建的？

Question

当我在 spark 集群上运行 numpy 数组时，我很困惑它是在哪里创建的：

a = np.zeros((100, 100), dtype="byte")

我觉得它应该在驱动程序上创建。但是如果是这样的话，我们如何利用spark的分布式计算能力，换句话说，numpy如果spark不能分布式，为什么还要在spark上使用呢？

score 0 · Accepted Answer

答案是不。numpy 会将数据拉入您的驱动程序，如果数据超出内存限制，可能会导致 OOM。

1 回答 1