如果我创建如下所示的 pyspark 数据框,该 pyspark 数据框会占用 CDSW 内存(如 pandas 数据框)吗?还是会从 CDP 中获取内存?
在创建如下所示的大型 pyspark 数据框时,我遇到了内存问题。
dm = DenseMatrix(300, 10000000, np.zeros(300*10000000))
sdf = spark.createDataFrame(dm.toArray().tolist(),[])
! Engine exhausted available memory, consider a larger engine size.
x Engine exited with status 137.