我通过使用大量文本数据从 gensim 训练了一个段落向量模型。我做了下一个测试:我验证了任何句子的索引,然后为它推断出一个向量
>>> x=m.docvecs[18638]
>>> g=m.infer_vector("The seven OxyR target sequences analyzed previously and two new sites grxA at position 207 in GenBank entry M13449 and a second Mu phage mom site at position 59 in GenBank entry V01463 were used to generate an individual information weight matrix".split())
当我计算余弦相似度时,它非常低(预期相反)。
>>> 1 - spatial.distance.cosine(g, x)
0.20437437837633066
如果我做错了什么,有人可以告诉我吗?
谢谢