我在集群上使用 PySpark 创建了一个非常大的Spark Dataframe,它太大而无法放入内存。我还有一个带有 Keras 的自动编码器模型,它接收一个 Pandas 数据帧(内存中对象)。
将这两个世界结合在一起的最佳方式是什么?
我发现了一些在 Spark 上提供深度学习的库,但似乎只用于超参数调整或不支持像Apache SystemML这样的自动编码器
我肯定不是第一个在 Spark Dataframes 上训练 NN 的人。我在这里有一个概念上的差距,请帮助!
我在集群上使用 PySpark 创建了一个非常大的Spark Dataframe,它太大而无法放入内存。我还有一个带有 Keras 的自动编码器模型,它接收一个 Pandas 数据帧(内存中对象)。
将这两个世界结合在一起的最佳方式是什么?
我发现了一些在 Spark 上提供深度学习的库,但似乎只用于超参数调整或不支持像Apache SystemML这样的自动编码器
我肯定不是第一个在 Spark Dataframes 上训练 NN 的人。我在这里有一个概念上的差距,请帮助!
正如您提到的,Spark 中的 Pandas DF 是内存对象,不会分发训练。对于分布式训练,您必须依赖 Spark DF 和一些特定的第三方包来处理分布式训练:
您可以在此处找到信息: https ://docs.databricks.com/applications/machine-learning/train-model/distributed-training/index.html