在全连接层的标准 ANN 中,我们使用以下公式tf.matmul(X,weight) + bias
:我很清楚,因为我们使用矩阵乘法来连接输入和隐藏层。
但是在 GloVe 实现(https://nlp.stanford.edu/projects/glove/)中,我们使用以下公式进行嵌入乘法:tf.matmul(W, tf.transpose(U))
让我感到困惑的是tf.transpose(U)
部分。为什么我们使用tf.matmul(W, tf.transpose(U))
而不是tf.matmul(W, U)
?