2

假设我们有一个包含 10 个维度为 100 的向量的嵌入矩阵,我们强加max_norm=1

x = Embedding(num_embeddings=10, embedding_dim=100, max_norm=1)

原则上,每个嵌入的范数都应该小于或等于 1。但是,当我打印向量范数时,我得到的值远大于 1:

for w in x.weight: 
    print(torch.norm(w))

> tensor(11.1873, grad_fn=<CopyBackwards>)
> tensor(10.5264, grad_fn=<CopyBackwards>)
> tensor(9.6809, grad_fn=<CopyBackwards>)
> tensor(9.7507, grad_fn=<CopyBackwards>)
> tensor(10.7940, grad_fn=<CopyBackwards>)
> tensor(11.4134, grad_fn=<CopyBackwards>)
> tensor(9.7021, grad_fn=<CopyBackwards>)
> tensor(10.4027, grad_fn=<CopyBackwards>)
> tensor(10.1210, grad_fn=<CopyBackwards>)
> tensor(10.4552, grad_fn=<CopyBackwards>)

发生这种情况的任何特殊原因以及如何解决?

4

1 回答 1

2

max_norm参数限制了嵌入的范数,但不限制权重的范数。

为了更好地理解这一点,您可以运行以下示例:

from torch import LongTensor, norm
from torch.nn import Embedding

sentences = LongTensor([[1,2,4,5],[4,3,2,9]])
embedding = Embedding(num_embeddings=10, embedding_dim=100, max_norm=1)
for sentence in embedding(sentences):
    for word in sentence:
        print(norm(word))

其工作原理是将嵌入向量中的每个权重除以嵌入向量本身的范数,然后将其乘以max_norm。在您的示例max_norm=1中,因此它相当于除以规范。

要回答您在评论中提出的问题,您可以获得一个句子的嵌入(包含从您的字典中提取的单词索引的向量),使用上面的 2 个循环embedding(sentences)的规范。for

于 2021-02-23T10:24:37.983 回答