我熟悉 SBERT 及其预训练模型,它们很棒!但同时,我想了解结果是如何计算的,我在他们的网站上找不到更具体的内容。例如,我有一个文档,我想查找与它相似的其他文档。我使用了 2 个文档,每个文档包含 200-250 个单词(我将 model.max_seq_length 更改为 350,以便模型可以处理更大的文本),最后我们可以看到余弦相似度为 0.79。这就是我们所能看到的吗?有没有办法提取使模型返回这种高相似度值的主要短语/关键词?
提前致谢!
我熟悉 SBERT 及其预训练模型,它们很棒!但同时,我想了解结果是如何计算的,我在他们的网站上找不到更具体的内容。例如,我有一个文档,我想查找与它相似的其他文档。我使用了 2 个文档,每个文档包含 200-250 个单词(我将 model.max_seq_length 更改为 350,以便模型可以处理更大的文本),最后我们可以看到余弦相似度为 0.79。这就是我们所能看到的吗?有没有办法提取使模型返回这种高相似度值的主要短语/关键词?
提前致谢!