0

我正在尝试使用胡萝卜确定两个文档之间的相似性。是否有可能直接从框架中获得这种相似性?

此外,我一直在研究 tf-idf 矩阵,并意识到行对应于文档中的所有单词和列。但是,如何识别哪个文档对应于哪个列?

例如,假设一个文档列表,列顺序会是列表中文档的顺序吗?

前任:

列出文档 = {doc1, doc2, doc3}

列 0 = doc1 列 1 = doc2

...

这是?

4

1 回答 1

0

Carrot2 不使用文档-文档相似度的传统概念,因此您不会在那里找到它。您确实可以使用术语-文档矩阵来计算各种文档-文档相似度。

您假设术语文档矩阵的列与输入列表中的文档顺序相同是正确的。您可以检查源代码以清除任何其他疑问。

于 2015-01-09T08:38:58.577 回答