我想使用 tf-idf 计算词频。我已经起草了一个方程式,您应该在其中获得左侧的 tf-idf 值。它是否正确?
Tf-idf 用于DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
WORD
: in的出现次数DOCUMENT
number-of-words(DOCUMENT)
: 字数DOCUMENT
documents(ALL)
: 数据库中的文档数documents(WORD, ALL)
:数据库中包含的文档数WORD
如果你能帮助我,那就太好了。非常感谢您!