word2vec - 为什么两个句子之间预训练的 fasttex 模型的 cosine_similarity 高，根本不相关？

Question

我想知道为什么使用 wiki（韩语）预训练的“fasttext 模型”似乎效果不佳！:(

模型 = fasttext.load_model("./fasttext/wiki.ko.bin")

model.cosine_similarity("테스트 테스트 이건 테스트 문장", "지금 아무 관계 없는 글 정말로 정말로")

(英文) model.cosine_similarity("test test this is test sentence", "now not all relative docs really really")

0.99....?? 那些句子根本不是相对的意思。因此，我认为余弦相似度必须更低。然而它是 0.997383...

将孤句与 fasttext 进行比较是不可能的吗？那么它是使用 doc2vec 的唯一方法吗？

score 0 · Accepted Answer

您使用的是哪个“fasttext”代码包？

您确定它cosine_similarity()的设计目的是采用此类原始字符串，并自动标记/组合每个示例的单词以提供句子级别的相似性吗？（它的文档或说明性示例是否暗示了这种能力？或者它是否期望预先标记化的单词列表？）

1 回答 1