1

我想使用 TF-IDF 的余弦相似度方法获得两个单词的语义相似度。首先,我想从 wikipedia 或 word-net 中获取这些单词的含义。之后,我想对文本进行预处理并找到 TF-IDF。当我搜索这个问题时,我发现要找到 TF-IDF,我们应该有一个训练集和测试集。在我的情况下,哪个是训练集,哪个是测试集?如何使用计算结果计算余弦相似度?

4

1 回答 1

0

训练阶段是在 TF-IDF 中找到权重,权重是根据文档中给定单词与所有文档的频率计算得出的。一旦你有了所有的权重,就意味着你把每个文档变成了一个包含 N 个单词的向量。

现在,给定两个文档 i 和 j,您可以通过 Cosine 函数计算它们的相似度。两个向量的余弦相似性度量是通过它们的点积在它们的大小上计算出来的。在这里查看更多信息。

于 2012-10-05T19:38:06.440 回答