-1

当我在 spark 集群上运行 numpy 数组时,我很困惑它是在哪里创建的:

a = np.zeros((100, 100), dtype="byte")

我觉得它应该在驱动程序上创建。但是如果是这样的话,我们如何利用spark的分布式计算能力,换句话说,numpy如果spark不能分布式,为什么还要在spark上使用呢?

4

1 回答 1

0

答案是不。numpy 会将数据拉入您的驱动程序,如果数据超出内存限制,可能会导致 OOM。

于 2020-06-11T06:10:51.880 回答