pyspark - CDSW/CDP 中的 PySpark 内存使用情况

翻译自：https://stackoverflow.com/questions/68517025 2021-07-25T08:54:44.703

80 次

如果我创建如下所示的 pyspark 数据框，该 pyspark 数据框会占用 CDSW 内存（如 pandas 数据框）吗？还是会从 CDP 中获取内存？

在创建如下所示的大型 pyspark 数据框时，我遇到了内存问题。

dm = DenseMatrix(300, 10000000, np.zeros(300*10000000))
sdf = spark.createDataFrame(dm.toArray().tolist(),[])

! Engine exhausted available memory, consider a larger engine size.
x Engine exited with status 137.

0 回答 0