3

我想使用 tf-idf 计算词频。我已经起草了一个方程式,您应该在其中获得左侧的 tf-idf 值。它是否正确?

Tf-idf 用于DOCUMENT

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT)WORD: in的出现次数DOCUMENT
  • number-of-words(DOCUMENT): 字数DOCUMENT
  • documents(ALL): 数据库中的文档数
  • documents(WORD, ALL):数据库中包含的文档数WORD

如果你能帮助我,那就太好了。非常感谢您!

4

1 回答 1

1

根据维基百科文章,这是正确的,您可能希望更改为 1+documents(WORD, ALL) 而不是文档(WORD, ALL),正如维基百科文章所建议的那样。

维基百科上的 TF-IDF

于 2009-08-22T11:46:34.220 回答