大家,早安
下面是我对 pytorch 连体网络的实现。我使用 32 批大小、MSE 损失和具有 0.9 动量的 SGD 作为优化器。
class SiameseCNN(nn.Module):
def __init__(self):
super(SiameseCNN, self).__init__() # 1, 40, 50
self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(), # 8, 34, 44
nn.Conv2d(8, 16, 5), nn.ReLU(), # 16, 30, 40
nn.MaxPool2d(2, 2), # 16, 15, 20
nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
self.linear2 = nn.Sequential(nn.Linear(100, 2), nn.ReLU())
def forward(self, data):
res = []
for j in range(2):
x = self.convnet(data[:, j, :, :])
x = x.view(-1, 64 * 15 * 20)
res.append(self.linear1(x))
fres = abs(res[1] - res[0])
return self.linear2(fres)
每批包含交替对,即[pos, pos], [pos, neg], [pos, pos]
等...但是,网络不收敛,并且问题似乎fres
在网络中对于每一对都是相同的(无论是正对还是负对),并且输出ofself.linear2(fres)
总是大约等于[0.0531, 0.0770]
。这与我的预期相反,即[0.0531, 0.0770]
随着网络的学习,正对的第一个值将接近 1,而负对的第二个值将接近 1。这两个值也需要相加为 1。
我已经为 2 通道网络架构测试了完全相同的设置和相同的输入图像,例如,[pos, pos]
您可以在其中以深度方式堆叠这 2 个图像,而不是输入numpy.stack([pos, pos], -1)
。在此设置中的尺寸nn.Conv2d(1, 8, 7)
也会更改为。nn.Conv2d(2, 8, 7)
这工作得很好。
我还为传统的 CNN 方法测试了完全相同的设置和输入图像,我只是将单个正和负灰度图像传递到网络中,而不是堆叠它们(如使用 2-CH 方法)或传递它们作为图像对(与连体方法一样)。这也很有效,但结果不如 2 通道方法好。
编辑(我尝试过的解决方案):
- 我尝试了许多不同的损失函数,包括 HingeEmbeddingLoss 和 CrossEntropyLoss,都导致或多或少相同的问题。所以我认为可以肯定地说问题不是由使用的损失函数引起的;MSEL 损失。
- 不同的批量大小似乎也对这个问题没有影响。
- 我尝试按照 Keras Model for Siamese Network not Learning 中的建议增加可训练参数的数量,并且始终预测相同的输出 也不起作用。
- 尝试更改此处实施的网络架构:https ://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb 。换句话说,将前向传递更改为以下代码。还将损失更改为 CrossEntropy,将优化器更改为 Adam。仍然没有运气:
def forward(self, data):
res = []
for j in range(2):
x = self.convnet(data[:, j, :, :])
x = x.view(-1, 64 * 15 * 20)
res.append(x)
fres = self.linear2(self.linear1(abs(res[1] - res[0]))))
return fres
- 我还尝试将整个网络从 CNN 更改为线性网络,如下所示:https ://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb 。还是不行。
- 尝试使用此处建议的更多数据:Keras Model for Siamese Network not Learning and always predicting the same 输出。没运气...
- 试图
torch.nn.PairwiseDistance
在 的输出之间使用convnet
。做了一些改进;网络在前几个时期开始收敛,然后每次都达到相同的高原:
def forward(self, data):
res = []
for j in range(2):
x = self.convnet(data[:, j, :, :])
res.append(x)
pdist = nn.PairwiseDistance(p=2)
diff = pdist(res[1], res[0])
diff = diff.view(-1, 64 * 15 * 10)
fres = self.linear2(self.linear1(diff))
return fres
另一件需要注意的事情可能是,在我的研究范围内,为每个对象训练了一个连体网络。因此,第一类与包含相关对象的图像相关联,第二类与包含其他对象的图像相关联。不知道这是否可能是问题的原因。然而,在传统 CNN 和 2 通道 CNN 方法的背景下,这不是问题。
根据要求,这是我的培训代码:
model = SiameseCNN().cuda()
ls_fn = torch.nn.BCELoss()
optim = torch.optim.SGD(model.parameters(), lr=1e-6, momentum=0.9)
epochs = np.arange(100)
eloss = []
for epoch in epochs:
model.train()
train_loss = []
for x_batch, y_batch in dp.train_set:
x_var, y_var = Variable(x_batch.cuda()), Variable(y_batch.cuda())
y_pred = model(x_var)
loss = ls_fn(y_pred, y_var)
train_loss.append(abs(loss.item()))
optim.zero_grad()
loss.backward()
optim.step()
eloss.append(np.mean(train_loss))
print(epoch, np.mean(train_loss))
注意dp
indp.train_set
是一个带有 attributes 的类train_set, valid_set, test_set
,其中每个集合的创建方式如下:
DataLoader(TensorDataset(torch.Tensor(x), torch.Tensor(y)), batch_size=bs)
根据要求,这是预测概率与真实标签的示例,您可以在其中看到模型似乎没有学习:
Predicted: 0.5030623078346252 Label: 1.0
Predicted: 0.5030624270439148 Label: 0.0
Predicted: 0.5030624270439148 Label: 1.0
Predicted: 0.5030625462532043 Label: 0.0
Predicted: 0.5030625462532043 Label: 1.0
Predicted: 0.5030626654624939 Label: 0.0
Predicted: 0.5030626058578491 Label: 1.0
Predicted: 0.5030627250671387 Label: 0.0
Predicted: 0.5030626654624939 Label: 1.0
Predicted: 0.5030627846717834 Label: 0.0
Predicted: 0.5030627250671387 Label: 1.0
Predicted: 0.5030627846717834 Label: 0.0
Predicted: 0.5030627250671387 Label: 1.0
Predicted: 0.5030628442764282 Label: 0.0
Predicted: 0.5030627846717834 Label: 1.0
Predicted: 0.5030628442764282 Label: 0.0