python - 在 PyTorch 中嵌入会创建范数大于 max_norm 的嵌入

Question

假设我们有一个包含 10 个维度为 100 的向量的嵌入矩阵，我们强加max_norm=1：

x = Embedding(num_embeddings=10, embedding_dim=100, max_norm=1)

原则上，每个嵌入的范数都应该小于或等于 1。但是，当我打印向量范数时，我得到的值远大于 1：

for w in x.weight: 
    print(torch.norm(w))

> tensor(11.1873, grad_fn=<CopyBackwards>)
> tensor(10.5264, grad_fn=<CopyBackwards>)
> tensor(9.6809, grad_fn=<CopyBackwards>)
> tensor(9.7507, grad_fn=<CopyBackwards>)
> tensor(10.7940, grad_fn=<CopyBackwards>)
> tensor(11.4134, grad_fn=<CopyBackwards>)
> tensor(9.7021, grad_fn=<CopyBackwards>)
> tensor(10.4027, grad_fn=<CopyBackwards>)
> tensor(10.1210, grad_fn=<CopyBackwards>)
> tensor(10.4552, grad_fn=<CopyBackwards>)

发生这种情况的任何特殊原因以及如何解决？

score 2 · Accepted Answer

该max_norm参数限制了嵌入的范数，但不限制权重的范数。

为了更好地理解这一点，您可以运行以下示例：

from torch import LongTensor, norm
from torch.nn import Embedding

sentences = LongTensor([[1,2,4,5],[4,3,2,9]])
embedding = Embedding(num_embeddings=10, embedding_dim=100, max_norm=1)
for sentence in embedding(sentences):
    for word in sentence:
        print(norm(word))

其工作原理是将嵌入向量中的每个权重除以嵌入向量本身的范数，然后将其乘以max_norm。在您的示例max_norm=1中，因此它相当于除以规范。

要回答您在评论中提出的问题，您可以获得一个句子的嵌入（包含从您的字典中提取的单词索引的向量），使用上面的 2 个循环embedding(sentences)的规范。for

python - 在 PyTorch 中嵌入会创建范数大于 max_norm 的嵌入

1 回答 1

Related

Reference