deep-learning - 如何通过查询获取基于 Pytorch 数据加载器的数据集中特定项目的 ID？

Question

我在 Pytorch 数据加载器中有一个大型数据集（大约 500GB 和 180k 数据点加上标签）。到目前为止，我使用 torch.utils.data.random_split 将数据集随机拆分为训练和验证。但是，这会导致严重的过拟合。现在，我想使用确定性拆分，即基于存储在数据加载器中的路径，我可以计算出非随机拆分。但是，我不知道该怎么做...问题是：如何根据一些查询来获取大约 10% 的数据点的 ID，该查询查看了有关存储在数据加载器中的文件的信息（例如路径）？

score 0 · Accepted Answer

您是否将自定义数据集与数据加载器一起使用？如果基础数据集有一些变量来存储单个文件的文件名，您可以使用.dataloader.dataset.filename_variable.

如果那不可用，您可以自己创建一个自定义数据集，您实际上是在其中调用原始数据集本身。

deep-learning - 如何通过查询获取基于 Pytorch 数据加载器的数据集中特定项目的 ID？

1 回答 1

Related

Reference