tensorflow - 为什么 Gramian 矩阵适用于 VGG16，但不适用于 EfficientNet 或 MobileNet？

Question

A Neural Algorithm of Artistic Style使用在ImageNet 上训练的 VGG16 分类网络的中间特征向量的Gramian 矩阵。那时，这可能是一个不错的选择，因为 VGG16 是表现最好的分类之一。如今，有更高效的分类网络在分类性能上超过 VGG，同时需要更少的参数和 FLOPS，例如 EfficientNet 和 MobileNetv2。

但是当我在实践中尝试这一点时，VGG16 特征的 Gramian 矩阵似乎代表了图像风格，因为它的风格相似图像的 L2 距离小于风格不相关图像的 L2 距离。对于根据 EfficientNet 和 MobileNetv2 特征计算的 Gramian 矩阵，情况似乎并非如此。非常相似的图像之间和非常不同的图像之间的 L2 距离仅变化约 5%。

从网络结构来看，VGG、EfficientNet、MobileNet都有卷积，中间有batch normalization和ReLU，所以构建块是一样的。那么哪种设计决策是 VGG 独有的，以便其 Gramian 矩阵捕捉风格，而 EfficientNet 和 MobileNet 却没有？

score 0 · Accepted Answer

到现在为止，我想通了：Gramian 矩阵需要部分相关的特征才能正常工作。较新的网络使用 Dropout 正则化器进行训练，这将减少特征间的相关性。

tensorflow - 为什么 Gramian 矩阵适用于 VGG16，但不适用于 EfficientNet 或 MobileNet？

1 回答 1

Related

Reference