我正在使用 Amazon SageMaker 训练具有多个 GB 数据的模型。
我的数据是使用 huggingface 的 datasets.load_dataset 方法加载的。由于数据量很大并且我想重复使用它,我想将它存储在 Amazon S3 存储桶中。我在下面试过:
from datasets import load_dataset
dataset = load_dataset('s3://bucket_name/some_dir/data', 'oscar', 'unshuffled_deduplicated_en')
但这会导致:
FileNotFoundError: Couldn't find a dataset directory at 's3://bucket_name/some_dir/data'. It doesn't exist locally at /home/ec2-user/SageMaker/s3:/bucket_name/some_dir/data
简短:如何通过 huggingface datasets.load_dataset 将庞大的数据集下载到 S3 存储桶中,以便我可以在 SageMaker 上处理它?