我想使用 50GB 和 1TB 的数据集来训练 HuggingFace 的模型。我已经构建了可以在较小版本的数据集上正常工作的data_loader。但是,对于完整的数据集,缓存时间过长。我们有足够的计算能力,但一个人最多可以在服务器上保留一个资源6 小时。因此,data_loader可以在允许的时间段内缓存高达 50G 数据集的 60-70%。
有没有办法:
- 从本地目录加载数据而不缓存?
- 在超时(6 小时)发生后恢复缓存过程。
我试图增加 的数量num_proc
,dataloader_num_workers
但没有一个显示任何好处。
请注意,我的时间段不能超过 6 小时。我的 data_loader 在本地系统上运行良好,可以在 24 小时内缓存数据。