我必须实现这个网络:
类似于具有对比损失的孪生网络。我的问题是S1
/ F1
。论文这样说:
“
F1
并且S1
是我们用来分别学习面部和语音模态的单位归一化嵌入的神经网络。在图 1 中,我们描述了训练F1
和S1
测试例程。它们由 2D 卷积层(紫色)、最大-池化层(黄色)和全连接层(绿色)。所有层之间使用 ReLU 非线性。最后一层是单位归一化层(蓝色)。对于面部和语音模态,F1
返回S1
250 维单位归一化嵌入”。
我的问题是:
- 如何将 2D 卷积层(紫色)应用于具有形状的输入
(number of videos, number of frames, features)
? - 最后一层是什么?批量规范?
F.normalize
?