0

我有一个以镶木地板格式存储在 S3 上的训练数据集。我希望将此数据加载到笔记本中(在 databricks 集群上)并在其上训练 Keras 模型。在这个数据集上训练 Keras 模型的方法有几种:

  • 分批从 S3 读取 parquet 文件(可能使用 Pandas)并将这些批次提供给模型
  • 使用 Tensorflow IO API(这可能需要将 parquet 从 S3 复制到笔记本上的本地环境)
  • 使用 Petastorm 包(来自 Uber)——这也可能需要将 parquet 从 S3 复制到本地笔记本的环境

在这种情况下训练模型的最佳方法是什么,以便更容易将训练扩展到更大的训练数据集?

4

0 回答 0