5

我正在训练一个 GAN 来执行来自两个不同图像域(源S和目标T)的风格转换。因为我有可用的类信息,所以我有一个额外的Q网络(除了GD),它测量目标域及其标签(LeNet 网络)的生成图像的分类结果,并将错误传播到生成器D。从系统的收敛中我注意到它D总是从 8(D网络的损失函数误差)开始并略微下降到 4.5,G损失函数误差从 1 开始并迅速下降到 0.2。DG我正在使用的损失函数可以在这里找到,Q网络是分类交叉熵。迭代的误差图是:

在此处输入图像描述

D和G的损失函数为:

def discriminator_loss(y_true,y_pred):
      BATCH_SIZE=10
      return K.mean(K.binary_crossentropy(K.flatten(y_pred), K.concatenate([K.ones_like(K.flatten(y_pred[:BATCH_SIZE,:,:,:])),K.zeros_like(K.flatten(y_pred[:BATCH_SIZE,:,:,:])) ]) ), axis=-1)

def discriminator_on_generator_loss(y_true,y_pred):
     BATCH_SIZE=10
     return K.mean(K.binary_crossentropy(K.flatten(y_pred), K.ones_like(K.flatten(y_pred))), axis=-1)

def generator_l1_loss(y_true,y_pred):
     BATCH_SIZE=10
     return K.mean(K.abs(K.flatten(y_pred) - K.flatten(y_true)), axis=-1)

D 的误差函数总是那么高有意义吗?D和的错误的解释是什么G?是不是D一开始的损失应该很小,迭代后会上升?用损失阈值限制D过度是否是个好主意?G最后,在训练期间,从验证集上的损失函数而不是我正在使用的训练集计算误差是否有意义?(而不是直接使用 train_on_batch 使用 fit 然后在测试集上进行评估)。

编辑:

对于损失,我认为discriminator和 的discriminator_on_generator损失是 GAN 的正常损失函数,对吧?

4

1 回答 1

0

设 G 为生成器,D 为鉴别器。最初,D 和 G 都未经训练。现在,让我们假设 D 比 G 学得更快。因此,一段时间后,G 可以区分从真实数据分布中采样的样本和从生成器中采样的样本。最后,G 赶上并学习模拟真实的数据分布。现在,D 不再能够区分从真实数据分布中采样的样本和从生成器中采样的样本。

综合GD损失

因此,我们最初从 D 和 G(区域 I)的高损失开始。然后 D 的损失比 G 的损失下降得更快(区域 I 到 II)。随着 G 的损失继续减少,D 的损失增加(区域 II)。最后,两个损失都达到平衡值,因此完成了训练(区域 III)。

D 损失 G损失

于 2018-09-25T03:22:32.963 回答