python - 具有多个数据集的 Pytorch Dataloader shuffle

Question

我正在尝试Dataloader使用多个数据集进行自定义。

我的问题是，如果我(shuffle = True)在Dataloader选项中使用，是否可以将相同的顺序多次洗牌Dataloader？

例如：

数据加载器1：label = [5 , 4, 15, 16]

数据加载器2：label = [5 , 4, 15, 16]

score 0 · Accepted Answer

编辑：Pytorch 的数据加载器已经为此实施了解决方案。

请参见此处：https ://pytorch.org/docs/stable/data.html#torch.utils.data.Sampler您可以自己指定采样器。因此，您可以创建一个生成器并将其提供给所有数据加载器。

旧的（而且有点老套）答案：

如果保持顺序真的很重要，那么与其制作自定义数据加载器，不如制作自定义数据集。

请注意，只有当所有数据集都具有相同数量的示例时才有可能。或者不使用较大数据集的部分数据。

这些行中的某些东西应该起作用：

class ManyDatasetsInOne(Dataset):
    def __init__(self, **parameters):
        self.dataset1 = dataset1(**parameters_1)
        self.dataset2 = dataset2(**parameters_2)

    def __len__(self):
        return len(self.dataset1)

    def __getitem__(self, index):

        data1 = load_item(idx, self.dataset1)
        data2 = load_item(idx, self.dataset1)

        return data1, data2

python - 具有多个数据集的 Pytorch Dataloader shuffle

1 回答 1

Related

Reference