我正在尝试使用 TFIDF 作为相对频率来计算余弦距离。我从一个文档中选择了 10 个单词说:文件 1 并从我的文件夹中选择了另外 10 个文件,使用 10 个单词及其频率来检查 10 个文件中哪些与文件 1 相似。说文件夹中的文件总数是46.我知道 DF(是该单词出现在的文档数) IDF(是 log(文件总数(46)/DF)和 TFIDF(是 TF(一个文档中单词的频率)的乘积)和以色列国防军)
问题:
假设我上面所说的是 100% 正确,在获得一个文档中所有 10 个单词的 TFIDF 之后说:文件 2,我是否将 10 个单词中的每一个单词的所有 TFIDF 加在一起以获得文件 2 的 TFIDF?
余弦距离是多少?
谁能帮忙举个例子?