0

我想知道为什么使用 wiki(韩语)预训练的“fasttext 模型”似乎效果不佳!:(

模型 = fasttext.load_model("./fasttext/wiki.ko.bin")

model.cosine_similarity("테스트 테스트 이건 테스트 문장", "지금 아무 관계 없는 글 정말로 정말로")

(英文) model.cosine_similarity("test test this is test sentence", "now not all relative docs really really")

0.99....?? 那些句子根本不是相对的意思。因此,我认为余弦相似度必须更低。然而它是 0.997383...

将孤句与 fasttext 进行比较是不可能的吗?那么它是使用 doc2vec 的唯一方法吗?

4

1 回答 1

0

您使用的是哪个“fasttext”代码包?

您确定它cosine_similarity()的设计目的是采用此类原始字符串,并自动标记/组合每个示例的单词以提供句子级别的相似性吗?(它的文档或说明性示例是否暗示了这种能力?或者它是否期望预先标记化的单词列表?)

于 2017-05-15T22:59:27.620 回答