0

我在 Pytorch 数据加载器中有一个大型数据集(大约 500GB 和 180k 数据点加上标签)。到目前为止,我使用 torch.utils.data.random_split 将数据集随机拆分为训练和验证。但是,这会导致严重的过拟合。现在,我想使用确定性拆分,即基于存储在数据加载器中的路径,我可以计算出非随机拆分。但是,我不知道该怎么做...问题是:如何根据一些查询来获取大约 10% 的数据点的 ID,该查询查看了有关存储在数据加载器中的文件的信息(例如路径)?

4

1 回答 1

0

您是否将自定义数据集与数据加载器一起使用?如果基础数据集有一些变量来存储单个文件的文件名,您可以使用.dataloader.dataset.filename_variable.

如果那不可用,您可以自己创建一个自定义数据集,您实际上是在其中调用原始数据集本身。

于 2020-01-02T23:16:46.303 回答