5

我已经使用XLNet embedding-as-service计算了两个相同句子的向量。但是该模型为两个相同的句子产生了不同的向量嵌入,因此余弦相似度不是 1,欧几里得距离也不是 0。在 BERT 的情况下,它的工作正常。例如; 如果

vec1 = en.encode(texts=['he is anger'],pooling='reduce_mean')
vec2 = en.encode(texts=['he is anger'],pooling='reduce_mean')

模型(XLNet)说这两个句子是不同的。

4

1 回答 1

0

作为解决方法,如果您有一定的灵活性,那么改用 vanillatransformers库怎么样?

由于。。。导致的结果

from transformers import pipeline
embedder = pipeline("feature-extraction", model="xlnet-base-cased")
embedder("he is anger")

是确定性的。

于 2022-02-04T20:50:13.457 回答