如何Subset
在 PyTorch 中对不同的 s 使用不同的数据增强(转换)?
例如:
train, test = torch.utils.data.random_split(dataset, [80000, 2000])
train
并且test
将具有与 相同的变换dataset
。如何为这些子集使用自定义转换?
如何Subset
在 PyTorch 中对不同的 s 使用不同的数据增强(转换)?
例如:
train, test = torch.utils.data.random_split(dataset, [80000, 2000])
train
并且test
将具有与 相同的变换dataset
。如何为这些子集使用自定义转换?
我目前的解决方案不是很优雅,但有效:
from copy import copy
train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size])
train_dataset.dataset = copy(full_dataset)
test_dataset.dataset.transform = transforms.Compose([
transforms.Resize(img_resolution),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
])
train_dataset.dataset.transform = transforms.Compose([
transforms.RandomResizedCrop(img_resolution[0]),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
])
基本上,我正在为其中一个拆分定义一个新数据集(它是原始数据集的副本),然后为每个拆分定义一个自定义转换。
注意:train_dataset.dataset.transform
因为我使用的是ImageFolder
数据集,它使用.tranform
属性来执行转换,所以可以工作。
如果有人知道更好的解决方案,请与我们分享!
我已经放弃并复制了我自己的子集(几乎与 pytorch 相同)。我将转换保留在子集中(而不是父集)。
class Subset(Dataset):
r"""
Subset of a dataset at specified indices.
Arguments:
dataset (Dataset): The whole Dataset
indices (sequence): Indices in the whole set selected for subset
"""
def __init__(self, dataset, indices, transform):
self.dataset = dataset
self.indices = indices
self.transform = transform
def __getitem__(self, idx):
im, labels = self.dataset[self.indices[idx]]
return self.transform(im), labels
def __len__(self):
return len(self.indices)
您还必须编写自己的拆分功能
这是我使用的(取自这里):
import torch
from torch.utils.data import Dataset, TensorDataset, random_split
from torchvision import transforms
class DatasetFromSubset(Dataset):
def __init__(self, subset, transform=None):
self.subset = subset
self.transform = transform
def __getitem__(self, index):
x, y = self.subset[index]
if self.transform:
x = self.transform(x)
return x, y
def __len__(self):
return len(self.subset)
这是一个例子:
init_dataset = TensorDataset(
torch.randn(100, 3, 24, 24),
torch.randint(0, 10, (100,))
)
lengths = [int(len(init_dataset)*0.8), int(len(init_dataset)*0.2)]
train_subset, test_subset = random_split(init_dataset, lengths)
train_dataset = DatasetFromSubset(
train_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)
test_dataset = DatasetFromSubset(
test_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)