我在 Pytorch 数据加载器中有一个大型数据集(大约 500GB 和 180k 数据点加上标签)。到目前为止,我使用 torch.utils.data.random_split 将数据集随机拆分为训练和验证。但是,这会导致严重的过拟合。现在,我想使用确定性拆分,即基于存储在数据加载器中的路径,我可以计算出非随机拆分。但是,我不知道该怎么做...问题是:如何根据一些查询来获取大约 10% 的数据点的 ID,该查询查看了有关存储在数据加载器中的文件的信息(例如路径)?
问问题
558 次