python - Amazon SageMaker 与 huggingface load_dataset 到 Amazon S3 存储桶

问问题 2021-09-19T12:20:25.087

78 次

我正在使用 Amazon SageMaker 训练具有多个 GB 数据的模型。

我的数据是使用 huggingface 的 datasets.load_dataset 方法加载的。由于数据量很大并且我想重复使用它，我想将它存储在 Amazon S3 存储桶中。我在下面试过：

from datasets import load_dataset
dataset = load_dataset('s3://bucket_name/some_dir/data', 'oscar', 'unshuffled_deduplicated_en')

但这会导致：

FileNotFoundError: Couldn't find a dataset directory at 's3://bucket_name/some_dir/data'. It doesn't exist locally at /home/ec2-user/SageMaker/s3:/bucket_name/some_dir/data

简短：如何通过 huggingface datasets.load_dataset 将庞大的数据集下载到 S3 存储桶中，以便我可以在 SageMaker 上处理它？

python - Amazon SageMaker 与 huggingface load_dataset 到 Amazon S3 存储桶

0 回答 0

Related

Reference