-1

我正在学习评估文档之间的文本相似性。浏览有关该主题的 text2vec 教程 ( http://text2vec.org/similarity.html ),我注意到代码返回了两个相似度值。这是 Dmitriy Selivanov 教程中代码的结尾:

d1_d2_cos_sim = sim2(dtm1, dtm2, method = "cosine", norm = "l2")
dim(d1_d2_cos_sim)

[1] 300 200

哪个返回值(300 或 200)描述了文本相似性/差异?

4

1 回答 1

0

它既不描述。dim只返回矩阵的行数和列数d1_d2_cos_sim,300 x 200。相似性在对象内部,d1_d2_cos_sim正如您在下一行代码中看到的那样,d1_d2_cos_sim[1:2, 1:5]它返回前 2 行和前 5 列。这显示了 d1 的前 2 个文档与 d2 的前 5 个文档的相似性。

于 2020-04-29T09:30:46.407 回答