我正在通过阅读 CSV
data=sc.textFile("filename")
Df = Sparksql.create dataframe()
Pdf = Df.toPandas ()
现在 Pdf 是分布在 spark 集群中还是驻留在主机环境中?
我正在通过阅读 CSV
data=sc.textFile("filename")
Df = Sparksql.create dataframe()
Pdf = Df.toPandas ()
现在 Pdf 是分布在 spark 集群中还是驻留在主机环境中?
不。
正如它在 DataFrame 的 PySpark源代码中所说:
.. note:: This method should only be used if the resulting Pandas's DataFrame is expected
to be small, as all the data is loaded into the driver's memory.