当我在 spark 集群上运行 numpy 数组时,我很困惑它是在哪里创建的:
a = np.zeros((100, 100), dtype="byte")
我觉得它应该在驱动程序上创建。但是如果是这样的话,我们如何利用spark的分布式计算能力,换句话说,numpy如果spark不能分布式,为什么还要在spark上使用呢?
当我在 spark 集群上运行 numpy 数组时,我很困惑它是在哪里创建的:
a = np.zeros((100, 100), dtype="byte")
我觉得它应该在驱动程序上创建。但是如果是这样的话,我们如何利用spark的分布式计算能力,换句话说,numpy如果spark不能分布式,为什么还要在spark上使用呢?