4

我在集群上使用 PySpark 创建了一个非常大的Spark Dataframe,它太大而无法放入内存。我还有一个带有 Keras 的自动编码器模型,它接收一个 Pandas 数据帧(内存中对象)。

将这两个世界结合在一起的最佳方式是什么?

我发现了一些在 Spark 上提供深度学习的库,但似乎只用于超参数调整或不支持像Apache SystemML这样的自动编码器

我肯定不是第一个在 Spark Dataframes 上训练 NN 的人。我在这里有一个概念上的差距,请帮助!

4

1 回答 1

0

正如您提到的,Spark 中的 Pandas DF 是内存对象,不会分发训练。对于分布式训练,您必须依赖 Spark DF 和一些特定的第三方包来处理分布式训练:

您可以在此处找到信息: https ://docs.databricks.com/applications/machine-learning/train-model/distributed-training/index.html

于 2020-12-17T14:11:36.830 回答