IJ Goodfellow 最初提出的 GAN 使用以下损失函数,
D_loss = - log[D(X)] - log[1 - D(G(Z))]
G_loss = - log[D(G(Z))]
因此,鉴别器试图最小化 D_loss,生成器试图最小化 G_loss,其中 X 和 Z 分别是训练输入和噪声输入。D(.) 和 G(.) 分别是鉴别器和生成器神经网络的映射。
正如原始论文所说,当 GAN 训练几个步骤时,它会达到生成器和判别器都无法改进且 D(Y) 处处为 0.5 的点,Y 是判别器的一些输入。在这种情况下,当 GAN 被充分训练到这一点时,
D_loss = - log(0.5) - log(1 - 0.5) = 0.693 + 0.693 = 1.386
G_loss = - log(0.5) = 0.693
那么,为什么我们不能使用 D_loss 和 G_loss 值作为评估 GAN 的指标呢?
如果两个损失函数偏离了这些理想值,那么 GAN 肯定需要训练好或者架构需要设计好。正如原始论文中的定理 1 所讨论的,这些是 D_loss 和 G_loss 的最佳值,但是为什么不能将它们用作评估指标呢?