A Neural Algorithm of Artistic Style使用在ImageNet 上训练的 VGG16 分类网络的中间特征向量的Gramian 矩阵。那时,这可能是一个不错的选择,因为 VGG16 是表现最好的分类之一。如今,有更高效的分类网络在分类性能上超过 VGG,同时需要更少的参数和 FLOPS,例如 EfficientNet 和 MobileNetv2。
但是当我在实践中尝试这一点时,VGG16 特征的 Gramian 矩阵似乎代表了图像风格,因为它的风格相似图像的 L2 距离小于风格不相关图像的 L2 距离。对于根据 EfficientNet 和 MobileNetv2 特征计算的 Gramian 矩阵,情况似乎并非如此。非常相似的图像之间和非常不同的图像之间的 L2 距离仅变化约 5%。
从网络结构来看,VGG、EfficientNet、MobileNet都有卷积,中间有batch normalization和ReLU,所以构建块是一样的。那么哪种设计决策是 VGG 独有的,以便其 Gramian 矩阵捕捉风格,而 EfficientNet 和 MobileNet 却没有?