我想使用 tf-idf 计算词频。我已经起草了一个方程式,您应该在其中获得左侧的 tf-idf 值。它是否正确?
Tf-idf 用于DOCUMENT:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)WORD: in的出现次数DOCUMENTnumber-of-words(DOCUMENT): 字数DOCUMENTdocuments(ALL): 数据库中的文档数documents(WORD, ALL):数据库中包含的文档数WORD
如果你能帮助我,那就太好了。非常感谢您!